"If Analytics Is The Engine, Then Data Is The Fuel Of The 21st Century”

hogyan tanítsd a modelled: analitikus modellezés lépésről lépésre

2019. február 20. - György Gábor

Az adatokra épülő modellek felépítése - kicsit "trendibb" megfogalmazással élve a modell tanítása vagy tréningezése - az 5 fő lépésre bontható, amely lépéseket akár többször is meg kell ismételni:

 

Fontos azt is látni, hogy ezek a lépések még csak modell tanítására vonatkoznak, miközben egy komplett adatbányászati projektnek ez csak egy "állomása", mivel maga az adatbányászati projekt is több lépésből áll (erről egy másik bejegyzésben).

1. a felhasznált adatokat bontsd fel 2 részhalmazra!

Az egyiket (tréning adatok) a modell tanításához használod, a másikkal teszteled a kapott modellt. A felbontás alapvetően véletlen módon történik, bizonyos esetekben akár többször is, több részhalmazt képezve (pl. az ún. k-fold cross-validation módszer esetén).

2. válaszd ki a megfelelő modellt/algoritmust

Először is meg kell határozni, hogy milyen típusú problémáról van szó és arra milyen választ, megoldást keresel? Ha például a vásárlóidat szeretnéd csoportosítani, akkor valamilyen klaszter algoritmussal érdemes dolgozni (pl. k-mean clustering, hierarchikus klaszterezés). Ha pedig arra keresel választ, hogy a kosárértéket hogyan befolyásolják bizonyos demográfiai jellemzők, akkor valamilyen regressziós modellel érdemes próbálkozni.  

 

3. hiperparaméter tuning

Egyes modellek tanulási folyamatát ún. hiperparaméterek vezérlik (pl. backpropagation algoritmus esetében a tanulási ráta vagy bizonyos klaszterező algoritmusok esetében a klaszterek száma): ezek induló értéke befolyásolja, hogy milyen eredményt kapunk, így érdemes ezeket is felülvizsgálni és finomhangolni.

 

4. modell tanítása (tréning)

Ebben lépésben kerülnek meghatározásra modell konkrét paraméterei, pl. egy lineáris vagy logisztikus regressziós modell esetén a a regressziós egyenletben szereplő független változók együtthatói, a koefficiensek. Ha pedig egy döntési fáról vagy Näive Bayes modellről van szó, akkor az egyes konkrét szabályok vagy a csomópontok, ágak száma.

 

5. modell kiértékelése, tesztelése

Az elkészült modell még nem biztos, hogy megfelelő pontosággal működik! Egyrészt a kapott modell egyes paramétereinek relevanciáját is értékelni kell (pl. a regressziós koefficiensek esetén azok ún. p értéke segít ebben), másrészt az adatok szétválasztása során kapott teszt adathalmazon kell tesztelni a modell előrejelző képességét, pontosságát.

 

6. Lépj vissza néhányat!

A kapott eredmények kiértékelése alapján szükséges lehet akár a hiperparaméterek módosítása, de akár új adatok gyűjtése vagy éppen a modellépítéshez felhasznált egyes változók elhagyása, új változók bevonása a vizsgálatba.