"If Analytics Is The Engine, Then Data Is The Fuel Of The 21st Century”

egy tipikus "data analytics" projekt - lépések, teendők

2019. május 02. - Brandbook

Hogyan épül fel a gyakorlatban egy tipikus adatelemzési / adatbányászati projekt? Milyen lépései vannak, mire kell figyelni, mik a fő fókuszok? A bejegyzésben röviden összefoglaljuk, amit érdemes tudni a folyamatról.

 

1. Értsd meg az üzleti problémát!

Tedd fel a megfelelő kérdéseket, járd körül az üzleti környezetet és magát a problémát!

Mire keressük egyáltalán a választ?

Mi befolyásolja a lehetséges kimeneteket, melyek az elérendő üzleti célok? Milyen üzleti összefüggések vannak a vizsgált probléma hátterében, amelyek befolyásolják a kimenetet: pl. mitől függ a kosárérték, befolyásolják-e azt és ha igen, milyen mértékben a vásárlók demográfiai jellemzői vagy az értékesítési pont földrajzi elhelyezkedése?

 

2. Ismerd meg az adatokat!

Honnan, milyen adatokat tudsz megszerezni? Mi az, ami már rendelkezésre áll, hogyan nyerheted ki az elérhető adatbázisokból? Mennyire megbízhatóak és naprakészek az adatok?

Mi az, ami kell, de nem áll még rendelkezésre?

Ha nem áll rendelkzésre, akkor hogy jutsz hozzá: megvheted, vagy végeztethetsz mérést/kutatást a témában. Illetve kialakíthatsz egy belső adatgyűjtési stratégiát is, aminek során meghatározod, hogy az ERP, CRM vagy egyéb ügyviteli rendszerben milyen módon, hogyan kerüljenek be a szükséges adatok! Ez végső soron az adat/IT infrastruktúra fejlesztését is igényelheti, ami már egy külön, önálló projekt (túlmutat a jelen bejegyzés tárgyán).

 

3. Készítsd elő - tedd elemezhetővé az adatokat!

A nyersadatok a legtöbbször nem használhatók eredeti formájukban: kapcsold össze adatokat, tisztísd meg azokat - töröld ami nem kell, pótold a hiányzó adatokat! Így már használható vagy további származtatott adatok is szükségesek? Esetleg egy kis feature scaling vagy feature engineering?

Ezt a lépést lehet, hogy többször is meg kell tenni, mivel a modellezés eredményeként előállhat olyan helyzet, hogy további, új fajta adatokra van szükségünk! 

Az adatok előkészítésének része is lehet, de akár a következő pontban leirtakhoz is tartozhat a meglevő adatok felbontása ún. tanító és teszt adathalmazokra. Az előbbivel modellezünk, az utóbbival teszteljük a kapott modellt. 

4. Analitikus modell(ek) készítése

Az adott problématípusnak és a vizsgálandó üzleti kérdésnek megfelelően készíts modelleket: akár több modell típust, azoknak különböző paraméterek melletti variációját is tesztelheted!

A modell építést jellemzően felderítő jellegű adatelemezéssel érdemes kezdeni: vizualizációval, egyszerűbb leíró statisztikákkal esetleg kontingecia táblákkal érdemes vizsgálni a kiinduló adatokat, a jelenséget leíró főbb metrikákat és az esetleges kapcsolatokat, összefüggéseket vagy éppen az időbeni tendenciákat. Ezt követően már fel lehet állítani egy előzetes hipotézist, amelyet felhasználva kijelölhetők a további irányok és a hipotézis alapján el lehet kezdeni a modellezést.

Az elkészült modellek első verziói majdnem biztosan tovább csiszolhatók: pl. az előrejelzés, osztályozás pontossága vagy klaszterek száma és azok közötti távolságok javíthatók. Ez a szakasz a finomhangolása, amikor modell paramétereit vagy akár magát a modell is módosítani szükséges! Módosítható például a modellben figyelembe vett független változók száma vagy éppen egy regresszióra épülő prediktív modell esetén érdemes lehet lineáris helyett valamilyen nem-lineáris megközelítést alkalmazni.Ezekről a lépésekről részletesebben írunk ebben a bejegyzésben.

 

5. Kiértékelés, konklúziók

Ha már úgy tűnik, hogy az inputok és modell paraméterek módosításával nem javítható érdemben a modell, akkor következik az a szakasz, ami miatt végeredményben az egész adatbányászati projektet megcsináltuk: vonjuk le az üzleti konklúziókat, értsük meg a feltárt összefüggéseket és azonosítsuk azokat a pontokat, ahol érdemes beavatkozni az üzleti folyamatba.

 

6. Alkalmazás a gyakorlatban

A projekt végtermékét, a kapott eredményeket többféle módon is alkalmazhatjuk.... ezeket néhány tömör példával szemléltethetjük:

  • magát az elkészült modellt a szervezeten belül publikáljuk, elérhetővé tesszük, akár ügyviteli rendszer keretében vagy egy egyéb platformon implementáljuk IT eszközökkel
  • fizetési kockázatokat, problémás ügyfeleket azonosító modellt készítettünk: a jövőben értékeljük a modell segítségével az új és meglevő partnereket, a kockázati szintnek megfelelő kereskedelmi kondíciókat alkalmazzunk
  • klaszteranalízis során csoportosítottuk az ügyfeleinket? dolgozzunk ki egyedi marketing akciókat, testre szabott üzeneteket az egyes célcsoportoknak
  • regressziós modellel vizsgáltuk a marketing költések hatékonyságát, az egyes kampányoknak köszönhető bevételeket vagy online forgalmi adatokat: a későbbiekben  marketing kampányok költségvetésére vonatkozó döntésnél a modell alkalmazásával előrejelzést készíthetünk a várható megtérülésről  

 

A gyakorlati alkalmazás magában foglalja azt is, hogy a modellt időről-időre újra validáljuk, az új adatok alapján teszteljük a működését és szükség esetén módosítjuk!