természet

Tárgyak

  • Kiadvány
  • Kutatási adatok
  • statisztikai módszerek
  • A cikk hibajavítását 2016. szeptember 29-én tették közzé.

Ez a cikk frissült

Fontos megérteni, hogy egy rangsorolási mutató mit fejez ki és mit rejt.

A múlt hónapban megvizsgáltuk a logisztikai regresszió használatát az osztályozáshoz, amelyben az adatképzési osztály előrejelzésére az 1. edzés adatai alapján kerül sor. Ebben a hónapban megvitattuk, hogyan lehet értékelni az osztályozó teljesítményét egy tesztkészleten - olyan adatokon, amelyeket nem használtak fel a képzéshez, és amelyekről a valódi besorolás ismert. Az osztályozókat általában numerikus metrika, például precizitás, vagy a teljesítmény grafikus ábrázolása, például vevő működési jellemzői (ROC) görbe segítségével értékelik. Megvizsgálunk néhány általános osztályozó mutatót, és megvitatjuk az egyetlen mutatóra hagyatkozás buktatóit.

A mutatók segítenek megérteni az osztályozó működését; sok elérhető, némelyik számos beállítható paraméterrel. A mutatók megértése kritikus jelentőséggel bír mások jelentéseinek értékelése szempontjából is: ha egy tanulmány csak egy mutatót mutat be, akkor megkérdőjelezhetjük az osztályozó teljesítményét, ha más mérőszámokkal értékeljük. A metrika kiválasztásának folyamatának szemléltetésére hipotetikus diagnosztikai tesztet fogunk szimulálni. Ez a teszt több klinikai tényező alapján osztályozza a fatális betegségben szenvedő vagy anélkül szenvedő beteget. Az osztályozó értékelésekor csak a teszt eredményeit vesszük figyelembe; sem az alapul szolgáló osztályozási mechanizmus, sem a mögöttes klinikai tényezők nem relevánsak.

A rangsorolási mutatókat valódi pozitív (TP), hamis pozitív (FP), hamis negatív (FN) és valódi negatív (TN) alapján számítják ki, amelyek mindegyikét az úgynevezett összetévesztési mátrix tartalmazza (1. ábra). Mind a négy mennyiség relevanciája az osztályozó céljától függ, és motiválja a mutató kiválasztását. Annak az orvosi vizsgálathoz, amely meghatározza, hogy a betegek olcsó, biztonságos és hatékony kezelést kapnak-e, az FP-k nem lennének olyan fontosak, mint az FN-ek, amelyek olyan betegeket képviselnek, akik megfelelő kezelés nélkül szenvedhetnek. Ezzel szemben, ha a kezelés kísérleti gyógyszer lenne, nagyon konzervatív tesztre lenne szükség, kevés FP-vel, hogy elkerüljék a gyógyszer tesztelését nem érintett egyéneknél.

A kék és a szürke körök pozitív (TP + FN) és negatív (FP + TN) eseteket jeleznek, a kék és szürke háttér/négyzetek pedig pozitívnak (TP + FP) és negatívnak (FN + TN) jósolt eseteket jelölik, illetőleg. Az egyes mutatók kiszámításához használt egyenleteket grafikusan kódolják a zavaros mátrixban lévő mennyiségek szempontjából. FDR, hamis felfedezési arány.

Teljes méretű kép

( a - d ) Mindegyik panel három különböző besorolási forgatókönyvet jelenít meg, a táblázatban a megfelelő pontosság (ac), érzékenység (sn), precizitás (pr), F 1 pontszám (F 1) és Matthews korrelációs együttható (MCC) megfelelő értékeivel. A csoport forgatókönyveinek értéke ugyanaz (0,8) az összes táblázat félkövér betűvel szedett metrikájához: ( nak nek ) pontosság, ( b ) érzékenység (helyreállítás), ( c ) pontosság és ( d ) F pontszám 1. Minden panelen piros vonallal áthúzzák azokat a megfigyeléseket, amelyek nem járulnak hozzá a megfelelő mutatóhoz. A színkódolás megegyezik az 1. ábrán láthatóval; Például a kék körök (pozitívnak mondható esetek) egy szürke háttéren (amelyek negatívnak számítanak) FN.

Teljes méretű kép

Ideális esetben egy orvosi vizsgálatnak nagyon alacsony az FN és az FP száma. Azoknál az embereknél, akik nem szenvednek betegségben, nem szabad felesleges kezelést kapni, és nem terhelhetik őket a pozitív teszt eredményének stresszével, és akiknek van ilyen betegségük, nem szabad hamis optimizmust adni a betegségtől mentesnek. Számos összesített mutatót javasoltak az értékelés rangsorolásához, amelyek teljesebben összefoglalják a zavaros mátrixot. A legnépszerűbb az F β pontszám, amely a β paraméter segítségével szabályozza a visszahívás és a pontosság egyensúlyát, és F F = (1 + β 2) (Precízió × Helyreállítás)/(β2 × Precízió + Helyreállítás). A β csökkenésével a pontosság nagyobb súlyt kap. Β = 1 esetén megvan az általánosan használt F 1 pontszám, amely egyenlően egyensúlyozza a felidézést és a pontosságot, és az egyszerűbb egyenletre redukálja a 2TP/(2TP + FP + FN).

Az Fβ-pontszám nem ragadja meg a teljes zavartsági mátrixot, mert az visszahíváson és a pontosságon alapszik, és egyik sem használja a TN-t, ami fontos lehet a nagyon elterjedt betegségek tesztelésében. Az egyik megközelítés, amely az összes adatot meg tudja ragadni a zavaros mátrixban, a Matthews korrelációs együttható (MCC), amely -1-től (ha a rangsorolás mindig rossz) és 0-ig (ha nem jobb, mint véletlenszerű) és 1-ig (amikor mindig helyes) Meg kell jegyezni, hogy két osztályozó eredményeinek összehasonlításakor az egyiknek magasabb lehet az F 1-pontszáma, míg a másiknak magasabb az MCC-je. Egyetlen mutató sem képes megkülönböztetni az osztályozó összes erősségét és gyengeségét.

Az osztályozás eredményeinek értelmezésében fontos tényező az osztályegyensúly, amely egy betegség előfordulása az általános populációban. Az egyensúlyhiány miatt az FP és az FN megértése fontosabb. Egy ritka betegség esetében, amely 1000-ből csak 2-t érint, mindegyik FP sokkal nagyobb hatással van a téves diagnózisok arányára, mint egy gyakoribb betegség esetén, amely 1000-ből 200-at érint. Feltételezzük, hogy a betegség általános populációban való előfordulása tükröződik a képzési és vizsgálati adatokban. Ha nem ez a helyzet, akkor az eredmények értelmezéséhez további körültekintésre van szükség.

Képzeljen el egy olyan betegség diagnosztikai tesztjét, amely számszerű pontszámot ad a betegnek. Egyszerű pozitív vagy negatív eredmény helyett a pontszám bizonyos fokú biztonságot nyújt: a magasabb pontszámmal rendelkező emberek nagyobb valószínűséggel szenvednek a betegségben. Valójában szinte minden osztályozó pozitív vagy negatív előrejelzést generál, ha küszöbértéket alkalmaz a pontszámra. Amint azt a múlt hónapban tárgyaltuk, egy magasabb küszöb csökkenti az FP arányát (példánkban ez felesleges kezelésben részesülő egészséges egyéneket képviseli), az alacsonyabb küszöb pedig csökkenti az FN arányát (olyan betegek, akik nem kapnak kezelést).

Érdemes értékelni az osztályozót anélkül, hogy konkrét küszöböt kellene választania. Ehhez vegye figyelembe az ismert betegségállapotú egyének felsorolását a diagnosztikai pontszám csökkenése alapján. Ez a lista a ROC görbe segítségével vizualizálható (3a. Ábra). A ROC görbe létrehozásakor a bal alsó sarokban és az előrejelzési pontszámok listájának tetején kezdjük. Ahogy lefelé haladunk a listán, ha ismert, hogy az adatok pozitívak (a betegségben szenvedő egyén), a sor felfelé mozog; különben jobbra mozog. Egy jó osztályozónak meg kell próbálnia minél közelebb kerülni a bal felső sarokhoz. Alternatív kijelző a precíziós helyreállítás (PR) görbe (3b. Ábra). Értelmezése kissé eltér egymástól, mivel a legjobb osztályozó a lehető legközelebb lenne a jobb felső sarokhoz, és a lehető legjobb kompenzációt érné el a helyreállítás és a pontosság érdekében. A ROC görbével ellentétben a PR görbe nem monoton.

( a, b ) A ( nak nek ) ROC, amely a valódi pozitív arányt (TPR) és a hamis pozitív arányt (FPR) ábrázolja, és ( b ) PR görbék. A görbék mindkét panelen olyan osztályozókat mutatnak be, amelyek (A) jóak, (B) hasonlóak a véletlenszerű osztályozáshoz és (C) rosszabbak, mint a véletlenszerűek. A véletlenszerű osztályozó várható teljesítményét a pontozott vonal mutatja nak nek . A PR görbe egyenértéke az osztály egyensúlyától függ, és nem jelenik meg.

Teljes méretű kép

Az osztály egyensúlyhiánya miatt a ROC görbék rosszul mutatják az osztályozó teljesítményét. Például, ha 100 egyénből csak 5-en szenvednek betegségben, akkor azt várhatnánk, hogy az öt pozitív eset a listánk tetejének közelében jár. Ha osztályozónk olyan eredményeket generál, amelyek ezt az 5 esetet az első 15-ben egyenletesen elosztva osztályozzák, akkor a ROC-diagram jól fog kinézni (4a. Ábra). Ha azonban olyan küszöböt használtunk volna, hogy az előrejelzések szerint a top 15 igaz, akkor 10 közülük FP lenne, ami nem tükröződik a ROC görbében. Ezt az alacsony teljesítményt azonban a PR görbe is tükrözi. Hasonlítsa ezt össze a 100 betegből 50 beteggel. Egy ekvivalens ROC görbét biztosító osztályozónak (4b. Ábra) most kedvező PR görbéje lesz. Ezen okok miatt a PR-görbék nagy adategyensúlytalansággal rendelkező adatkészletekhez ajánlottak. E két grafikon összefoglaló mutatóit is használjuk: a görbe alatti terület (AUC) az ROC görbe és a PR görbe alatti terület (AUPRC). Mindkét mutatónak ugyanazok a korlátai vannak, mint bármely más egyedi mutatónak.

( a, b ) ROC és PR görbék két, nagyon eltérő osztályegyenlegű adatkészlethez: ( nak nek ) 5% pozitív megfigyelés és ( b ) 50% pozitív visszajelzés. Minden panel esetében a megfigyelések függőleges vonalakként jelennek meg (felső), amelyek közül 5% vagy 50% pozitív (kék).

Teljes méretű kép

Az osztályozó rendeltetésének megértése kulcsfontosságú az értékeléshez szükséges megfelelő mutatók kiválasztásában. Egy mutató, még egy olyan összesítő használata is, mint az F1 pontszám, veszélyes az alapul szolgáló eredmények megfelelő ellenőrzése nélkül. Ezenkívül mindig figyelni kell az osztály egyensúlyhiányára, amely zavaró tényező torzíthatja a különböző mutatókat.