Skip to content

Latest commit

 

History

History
49 lines (41 loc) · 2.89 KB

File metadata and controls

49 lines (41 loc) · 2.89 KB

Yettel projekt dokumentációja

Célkitűzések

  • Busines tasks:

    • Csalásra és nem fieztésre hajlamos ügyfelek kiszűrése ügyfél, termék és fizetéssel kapcsolatos jellemzők alapján
    • Prediktív modell készítése a fent említett ügyfelek detektálására
    • Csalásmegelőzési stratégiák kialakítása (magas kockázatú ügyfelek és termékcsoportok azonosítása)
  • Busines goals:

    • Csalásokból adódó pénzügyi veszteség csökkentése
    • Csalás detektálás pontosságának növelése
    • Téves riasztások minimalizálása a nem csaló ügyfelek esetében
    • Elemzési eredmények biztosítása döntéshozók számára

    Előzetes hipotézisek:

    • Magasabb értékű telefonok esetéven gyakoribb lehet a csalás (Nem igazolt)
    • Fiatalabbak körében valószínübb a csalás esélye (Igazolt)
    • Egyes megyékben kiemelkedőbb a csalások száma (Igazolt)
    • Időszakos tendenciák megfigyelhetők (Részben igazolt)
      Mivel 1 év adatai állnak rendelkezésre ezért éves tendenciát nem lehet meghatározni.
      De ha a havi tendenciát nézzük akkor decemberben és az első negyedévben történt a legtöbb csalás
    • Egyes termékeknél magasabb a csalási arány (Igazolt) -- > top 10 termék
    • Webes vásárlások jobban vonzzák a csalókat (Nem igazolt)

    Adatok előkészítése:

    • Hiányzó és duplikált értékek szűrése
    • Installment_cnt átírása 0-ra ahol nem volt részletfizetés (?->0) Itt sok hiányzó adat lett volna
    • Operating_system hiányzó adatainak pótlása ahol egyértelmű a gyártó meghatározása
    • Outlet_county pótlása ahol virtuális vásárlás történt (customer_county->outlet_county)
    • Többi hiányzó érték eldobása (>10%)
    • DateTime adatok felbontása külön oszlookba
    • TODO ár alapú feature-k bevezetése (Discount, No_upfront_payment, stb.)

    Adatok elemzése az előzetes hipotézisek alapján:

    Lásd a kód EDA részét részletesebb információkért

    Adatok szervezése tanításra és tesztre

    • Kategórikus feature-k ekódolása, numerikus feature-k skálázása
    • Cél metrikák: ROC_AUC score, confusion_matrix (Precision, Recall, f1-score)
    • Idősoros validáció, TODO majd train_test_split (70% train, 15% test, 15% val)

    Modellek:

    • Baseline modell: Logistic Regression - Nagyon sok a false positive viszont a csalók nagyobb részét megtalálja
    • Random forest modell : Lényegesen kevesebb a false positive arány de még mindig szignifikáns, csalók ~50%-át találja meg
    • TODO XGboost - modell
    • TODO Feature selection - A random forest featurejeiből kiderült hogy a kor messze a leginkább meghatározó jellemző,
      szorosan utánuk az ár alapú jellemzőkkel együtt. Több figyelmet kellene ezekre a jellemzőkre fordítani

    TODO Minden csak a nem fizető ügyfelekre