-
Busines tasks:
- Csalásra és nem fieztésre hajlamos ügyfelek kiszűrése ügyfél, termék és fizetéssel kapcsolatos jellemzők alapján
- Prediktív modell készítése a fent említett ügyfelek detektálására
- Csalásmegelőzési stratégiák kialakítása (magas kockázatú ügyfelek és termékcsoportok azonosítása)
-
Busines goals:
- Csalásokból adódó pénzügyi veszteség csökkentése
- Csalás detektálás pontosságának növelése
- Téves riasztások minimalizálása a nem csaló ügyfelek esetében
- Elemzési eredmények biztosítása döntéshozók számára
- Magasabb értékű telefonok esetéven gyakoribb lehet a csalás (Nem igazolt)
- Fiatalabbak körében valószínübb a csalás esélye (Igazolt)
- Egyes megyékben kiemelkedőbb a csalások száma (Igazolt)
- Időszakos tendenciák megfigyelhetők (Részben igazolt)
Mivel 1 év adatai állnak rendelkezésre ezért éves tendenciát nem lehet meghatározni.
De ha a havi tendenciát nézzük akkor decemberben és az első negyedévben történt a legtöbb csalás - Egyes termékeknél magasabb a csalási arány (Igazolt) -- > top 10 termék
- Webes vásárlások jobban vonzzák a csalókat (Nem igazolt)
- Hiányzó és duplikált értékek szűrése
- Installment_cnt átírása 0-ra ahol nem volt részletfizetés (?->0) Itt sok hiányzó adat lett volna
- Operating_system hiányzó adatainak pótlása ahol egyértelmű a gyártó meghatározása
- Outlet_county pótlása ahol virtuális vásárlás történt (customer_county->outlet_county)
- Többi hiányzó érték eldobása (>10%)
- DateTime adatok felbontása külön oszlookba
- TODO ár alapú feature-k bevezetése (Discount, No_upfront_payment, stb.)
Lásd a kód
EDArészét részletesebb információkért- Kategórikus feature-k ekódolása, numerikus feature-k skálázása
- Cél metrikák: ROC_AUC score, confusion_matrix (Precision, Recall, f1-score)
- Idősoros validáció, TODO majd train_test_split (70% train, 15% test, 15% val)
- Baseline modell: Logistic Regression - Nagyon sok a false positive viszont a csalók nagyobb részét megtalálja
- Random forest modell : Lényegesen kevesebb a false positive arány de még mindig szignifikáns, csalók ~50%-át találja meg
- TODO XGboost - modell
- TODO Feature selection - A random forest featurejeiből kiderült hogy a kor messze a leginkább meghatározó jellemző,
szorosan utánuk az ár alapú jellemzőkkel együtt. Több figyelmet kellene ezekre a jellemzőkre fordítani
CR0ZFP/python
Folders and files
| Name | Name | Last commit date | ||
|---|---|---|---|---|