Yettel projekt dokumentációja

Célkitűzések

Busines tasks:
- Csalásra és nem fieztésre hajlamos ügyfelek kiszűrése ügyfél, termék és fizetéssel kapcsolatos jellemzők alapján
- Prediktív modell készítése a fent említett ügyfelek detektálására
- Csalásmegelőzési stratégiák kialakítása (magas kockázatú ügyfelek és termékcsoportok azonosítása)
Busines goals:
- Csalásokból adódó pénzügyi veszteség csökkentése
- Csalás detektálás pontosságának növelése
- Téves riasztások minimalizálása a nem csaló ügyfelek esetében
- Elemzési eredmények biztosítása döntéshozók számára
Előzetes hipotézisek:
- Magasabb értékű telefonok esetéven gyakoribb lehet a csalás (Nem igazolt)
- Fiatalabbak körében valószínübb a csalás esélye (Igazolt)
- Egyes megyékben kiemelkedőbb a csalások száma (Igazolt)
- Időszakos tendenciák megfigyelhetők (Részben igazolt)
  Mivel 1 év adatai állnak rendelkezésre ezért éves tendenciát nem lehet meghatározni.
  De ha a havi tendenciát nézzük akkor decemberben és az első negyedévben történt a legtöbb csalás
- Egyes termékeknél magasabb a csalási arány (Igazolt) -- > top 10 termék
- Webes vásárlások jobban vonzzák a csalókat (Nem igazolt)
Adatok előkészítése:
- Hiányzó és duplikált értékek szűrése
- Installment_cnt átírása 0-ra ahol nem volt részletfizetés (?->0) Itt sok hiányzó adat lett volna
- Operating_system hiányzó adatainak pótlása ahol egyértelmű a gyártó meghatározása
- Outlet_county pótlása ahol virtuális vásárlás történt (customer_county->outlet_county)
- Többi hiányzó érték eldobása (>10%)
- DateTime adatok felbontása külön oszlookba
- TODO ár alapú feature-k bevezetése (Discount, No_upfront_payment, stb.)
Adatok elemzése az előzetes hipotézisek alapján:

Lásd a kód EDA részét részletesebb információkért

Adatok szervezése tanításra és tesztre
- Kategórikus feature-k ekódolása, numerikus feature-k skálázása
- Cél metrikák: ROC_AUC score, confusion_matrix (Precision, Recall, f1-score)
- Idősoros validáció, TODO majd train_test_split (70% train, 15% test, 15% val)
Modellek:
- Baseline modell: Logistic Regression - Nagyon sok a false positive viszont a csalók nagyobb részét megtalálja
- Random forest modell : Lényegesen kevesebb a false positive arány de még mindig szignifikáns, csalók ~50%-át találja meg
- TODO XGboost - modell
- TODO Feature selection - A random forest featurejeiből kiderült hogy a kor messze a leginkább meghatározó jellemző,
  szorosan utánuk az ár alapú jellemzőkkel együtt. Több figyelmet kellene ezekre a jellemzőkre fordítani
TODO Minden csak a nem fizető ügyfelekre

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Yettel projekt dokumentációja

Célkitűzések

Előzetes hipotézisek:

Adatok előkészítése:

Adatok elemzése az előzetes hipotézisek alapján:

Adatok szervezése tanításra és tesztre

Modellek:

TODO Minden csak a nem fizető ügyfelekre

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Yettel projekt dokumentációja

Célkitűzések

Előzetes hipotézisek:

Adatok előkészítése:

Adatok elemzése az előzetes hipotézisek alapján:

Adatok szervezése tanításra és tesztre

Modellek:

TODO Minden csak a nem fizető ügyfelekre