Srovnání úspěšnosti klasifikace s náhodnou klasifikací
Po té, co zvolíme klasifikační metodu, natrénujeme klasifikátor a použijeme ho na naše data, nás obvykle zajímá, zda je náš výsledek klasifikace lepší než náhodná klasifikace. K takovému ověření můžeme použít permutační testování či jednovýběrový binomický test.
Při permutačním testování -krát náhodně přeházíme identifikátory příslušnosti do skupin u všech subjektů v testovacím souboru a provedeme klasifikaci se stejným nastavením jako při použití originálních testovacích dat. Cílem je získat -hodnotu, podle níž určíme statistickou významnost či nevýznamnost od náhodné klasifikace, přičemž tuto -hodnotu vypočítáme jako: , kde je počet iterací, v nichž byla úspěšnost klasifikace (např. celková správnost) vyšší nebo rovna úspěšnosti klasifikace originálních dat (). Výpočet -hodnoty naznačuje Obr. 3, kde černá křivka aproximuje histogram výsledků klasifikací při náhodném přeházení identifikátorů skupin a červenou šipkou je naznačen počet iterací, v nichž je výsledek klasifikace lepší nebo stejný jako úspěšnosti klasifikace originálních dat . Pokud je počet subjektů v obou skupinách shodný, leží histogram výsledků klasifikací kolem hodnoty 0,5. Pokud počet subjektů v obou skupinách není shodný, leží histogram kolem hodnoty dané podílem nejpočetnější skupiny v datech (v textu níže označováno jako ).
Obr. 3: Ilustrace výpočtu p-hodnoty z výsledků permutačního testování.
V případě jednovýběrového binomického testu ověřujeme, zda se liší celková správnost (což je podíl správně zařazených subjektů ze všech subjektů) od správnosti získané náhodnou klasifikací, kterou můžeme vypočítat jako podíl nejpočetnější skupiny v našich datech, tedy , kde je počet subjektů nejpočetnější skupiny. Testová statistika jednovýběrového binomického testu je pak tvaru:
(7)
|
Pokud , zamítáme nulovou hypotézu o shodnosti správnosti naší klasifikace a správnosti náhodné klasifikace. A pokud je současně celková správnost vyšší než správnost náhodné klasifikace , můžeme říci, že výsledek naší klasifikace je statisticky významně lepší než náhodná klasifikace.
Poznámka: Ze vzorečku vyplývá, že celková správnost náhodné klasifikace není vždy 0,5 (resp. 50%), jak bychom intuitivně předpokládali. Je to 0,5 (resp. 50%) jen v případě, pokud je počet subjektů či objektů v obou klasifikovaných skupinách stejný.
Uvažujme výsledek klasifikace 100 testovacích subjektů pomocí metody nejbližšího souseda z Příkladu 2, při níž byla získána celková správnost 78,0%. Dodejme, že soubor sestával ze 70 kontrolních subjektů a 30 pacientů. Zjistěte, zda je tento výsledek klasifikace lepší než náhodná klasifikace.
Řešení
Ze zadání vyplývá, že celková správnost našeho klasifikátoru je . Správnost náhodné klasifikace vypočteme při znalosti celkového počtu subjektů a při znalosti počtu subjektů početnější skupiny , kterou jsou v tomto případě kontroly, jako: .
Hodnota testového kritéria je pak: , což není větší než 1,96. Tedy jsme neprokázali, že naše klasifikace je lepší než náhodná klasifikace. To by mohl být překvapující výsledek, protože správnost 78% sama o sobě často poukazuje na poměrně dobrý klasifikační výsledek. Musíme ale mít na paměti, že počet subjektů v obou skupinách nebyl stejný. Kontrolních subjektů je 70%, a tedy kdybychom všechny subjekty z našich dat zařadili pouze do skupiny kontrolních subjektů, dostali bychom úspěšnost 70%, což skutečně odpovídá naší vypočtené úspěšnosti .
Statistická nevýznamnost srovnání úspěšnosti naší klasifikace s náhodnou klasifikací vyplývá i z 95% intervalu spolehlivosti vypočteného v Příkladu 2, protože tento interval spolehlivosti (69,9% - 86,1%) obsahuje hodnotu 70%.