A GBDT modellcsaládnak számos megvalósítása létezik, például:

  • GBM
  • XGBoost
  • LightGBM
  • Catboost.

Milyen különbségek vannak matek e különböző megvalósítások között?

Úgy tűnik, hogy a Catboost felülmúlja a többi implementációt, még csak az alapértelmezett paramétereit is használva, de ennek ellenére nagyon lassú.

Feltételezem, hogy a catboost nem használja a dummifikált változókat, így az egyes (kategorikus) változók súlya kiegyensúlyozottabb a többi megvalósításhoz képest, így a nagy kardinalitású változóknak nincs nagyobb súlyuk, mint a többinek. Engedje meg, hogy a gyenge (alacsony kardinalitású) kategóriák belépjenek egyes fákba, ezáltal jobb teljesítményt nyújt. Ezen kívül nincs további magyarázatom.

Ezt a cikket szeretné megtekinteni a Yandex csapatának angol nyelvű cikkében a CATBoost matematikai szingularitásáról.

Röviden elolvastam, és néhány olyan dolog közül, amelyet gyorsan megértettem, az a tény, hogy nem használják a VONAT A KÉPZÉSRE, mivel ezek a maradványok optimistán torzítják a tanulás minőségét. ( Frissítés: ez az újdonság lehetőséget nyújt a túlillesztés elleni küzdelemre, ami az egyik oka annak, hogy az algoritmus jobban teljesített az analógjaihoz képest, valamint számos lehetőség a kategorikus változók előkezelésére.

Sajnálom, hogy nem adott konkrét és teljes választ.

Matematikai különbségek a GBM, az XGBoost között

Először azt javaslom, olvassa el Friedman cikkét a Gradient Boosting Machine-ről, amelyet különösen a lineáris regresszor modellekre, osztályozókra és döntési fákra alkalmaznak. https://statweb.stanford.edu/

Itt nem mennék bele a részletekbe. Ez csak egy jó olvasat, amely a veszteségek különféle típusaira terjed ki (L), és a változó fontosságú koncepció mellett. Természetesen ez egy történelmi dokumentum arról, hogy a veszteségek minimalizálása érdekében a paraméterek helyett a függvények (alacsony szintű modellek) térben történő süllyedés módszerét valósították meg.

Talál egy matematikai matricát az XGBoost modellhez Tianqi Chen et al. Most érdekes lesz. Néhány matematikai eltérés ettől a modelltől Friedman klasszikus GBM-jétől:

  • Rendszeresített (büntetett) paraméterek (és emlékezünk arra, hogy a megerősítés paraméterei a függvény, a fák vagy a lineáris modellek): L1 és L2 elérhető.

catboost

  • Második származékok használata a folyamat felgyorsításához (ha korábban használtam, javíts ki).

Ezen a ponton: keresse meg a kvantilisvesztés megvalósítását a CATBoost-ban, amely hasznos és biztosítja az első és a második derivatívát is: https://github.com/catboost/catboost/blob/master/catboost/libs/something/error_functions .h

Bár nem találja ezt a hasznos L1 veszteségfüggvényt az XGBoost-ban, megpróbálhatja összehasonlítani a Yandex megvalósítását az XGB-hez írt egyedi veszteségfunkciókkal.

  • Ezenkívül a CATBoost kiválóan működik kategorikus jellemzőkkel, míg az XGBoost csak numerikus bemeneteket fogad el.

A régi és jól ismert egységes megközelítés mellett számos módszert kínálnak a kategorikus jellemzők táplálására a modellképzéshez. A bejárati tér méreteinek csökkentése sok információ elvesztése nélkül az egyik lehetséges oka annak, hogy a felszerelt modell kevésbé felszerelt.

Befejeztem. Nem használok LightGBM-et, így nem tudok rá fényt deríteni.