Wykorzystanie drzew decyzyjnych w kampaniach wyprzedażowych
Okres wyprzedaży to czas zwiększonych obrotów zarówno w kanale internetowym jak i stacjonarnych sklepów. Jednym z największych wyzwań w tym okresie jest odpowiednie dopasowanie kampanii marketingowej do nowych i obecnych Klientów. W zdefiniowaniu docelowej grypy odbiorców kampanii możemy wykorzystać mechanizmy eksploracji danych o Klientach, którzy dokonywali już zakupu w naszym sklepie internetowym lub stacjonarnym.
Eksploracja danych to proces odkrywania uogólnionych reguł i wiedzy zawartej w bazach danych, oparty na metodach statystycznych oraz technikach sztucznej inteligencji. Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (z uwagi na ograniczone możliwości czasowe) prawidłowości w zgromadzonych danych. Istnieje wiele technik eksploracji danych, które wywodzą się z ugruntowanych dziedzin nauki takich jak statystyka i uczenie maszynowe. Jednym z najistotniejszych zagadnień z dziedziny uczenia maszynowego jest wybór metody klasyfikacji.
Jak mogę wykorzystać eksplorację danych na potrzeby marketingu e-commerce?
Do określenia docelowej grupy Klientów którzy z dużym prawdopodobieństwem dokonają zakupu w trakcie wyprzedaży, możemy wykorzystać metodę klasyfikacji jaką jest drzewo decyzyjne. Drzewa decyzyjne to graficzna metoda wspomagania procesu decyzyjnego. Algorytm drzew decyzyjnych jest również stosowany w uczeniu maszynowym do pozyskiwania wiedzy na podstawie przykładów. Koncepcja Bugging polega na budowie ekspertów dla podzbioru zadań. W tym przypadku, ze wszystkich problemów do rozwiązania losowany jest ze zwracaniem podzbiór problemów a następnie dla tego podzbioru szukany jest ekspert. W algorytmie tym z całego zbioru danych uczących losowany jest podzbiór i dla tego podzbioru budowany jest model predykcyjny, następnie po raz kolejny ze zwracaniem losowany jest inny podzbiór wektorów i dla niego budowany jest kolejny model. Całość jest powtarzana kilkukrotnie a na koniec wszystkie zbudowane modele użyte są do głosowania.
W ramach metod drzew decyzyjnych istnieje kilka algorytmów, w naszym przypadku został wykorzystany algorytm Random Forest polegająca na tworzeniu wielu drzew decyzyjnych na podstawie losowego zestawu danych. Idea tego algorytmu polega na zbudowaniu konsylium ekspertów z losowych drzew decyzyjnych, gdzie w odróżnieniu od klasycznych drzew decyzji, losowe drzewa budowane są na zasadzie, iż podzbiór analizowanych cech w węźle dobierany jest losowo.
Cechy algorytmu Random Forest
Jest najlepszy jeśli chodzi o dokładność wśród pozostałych algorytmów działa skutecznie na dużych bazach danych utrzymuje dokładność w przypadku braku danych daje oszacowanie, które zmienne są istotne w klasyfikacji nie ma potrzeby przycinania drzew lasy mogą być zapisane i wykorzystane w przyszłości dla innego zbioru danych nie wymaga wiedzy eksperckiej. Pojedyncze klasyfikatory lasu losowego to drzewa decyzyjne. Algorytm Random Forest bardzo dobrze nadaje się do badania próby, gdzie wektor obserwacji jest dużego wymiaru. Przeprowadzona została analiza z wykorzystaniem algorytmu Random Forest w ramach przeprowadzonej analizy transakcji klientów w kanale internetowym. Algorytm został uruchomiony na podstawie parametrów:
- Zakup zrealizowany w miasta
- Wielkość populacji miasta
- Ilość dni od pierwszego zakupu
- Ilość zamówień Klienta
- Ilość produktów w zamówieniu
- Średnia zniżka w zamówieniu
Wyniki algorytmu zaklasyfikowały 886 klientów, którzy z dużym prawdopodobieństwem dokonają zakupu w najbliższej z akcji wyprzedażowej.