Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Klasifikace Hodnocení úspěšnosti klasifikace Srovnání úspěšnosti klasifikace s náhodnou klasifikací

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Srovnání úspěšnosti klasifikace s náhodnou klasifikací

Po té, co zvolíme klasifikační metodu, natrénujeme klasifikátor a použijeme ho na naše data, nás obvykle zajímá, zda je náš výsledek klasifikace lepší než náhodná klasifikace. K takovému ověření můžeme použít permutační testování či jednovýběrový binomický test.

Při permutačním testování -krát náhodně přeházíme identifikátory příslušnosti do skupin u všech subjektů v testovacím souboru a provedeme klasifikaci se stejným nastavením jako při použití originálních testovacích dat. Cílem je získat -hodnotu, podle níž určíme statistickou významnost či nevýznamnost od náhodné klasifikace, přičemž tuto -hodnotu vypočítáme jako: , kde je počet iterací, v nichž byla úspěšnost klasifikace (např. celková správnost) vyšší nebo rovna úspěšnosti klasifikace originálních dat (). Výpočet -hodnoty naznačuje Obr. 3, kde černá křivka aproximuje histogram výsledků klasifikací při náhodném přeházení identifikátorů skupin a červenou šipkou je naznačen počet iterací, v nichž je výsledek klasifikace lepší nebo stejný jako úspěšnosti klasifikace originálních dat . Pokud je počet subjektů v obou skupinách shodný, leží histogram výsledků klasifikací kolem hodnoty 0,5. Pokud počet subjektů v obou skupinách není shodný, leží histogram kolem hodnoty dané podílem nejpočetnější skupiny v datech (v textu níže označováno jako ).

Obr. 3: Ilustrace výpočtu p-hodnoty z výsledků permutačního testování.

V případě jednovýběrového binomického testu ověřujeme, zda se liší celková správnost (což je podíl správně zařazených subjektů ze všech subjektů) od správnosti získané náhodnou klasifikací, kterou můžeme vypočítat jako podíl nejpočetnější skupiny v našich datech, tedy , kde je počet subjektů nejpočetnější skupiny. Testová statistika jednovýběrového binomického testu je pak tvaru:

(7)

Pokud , zamítáme nulovou hypotézu o shodnosti správnosti naší klasifikace a správnosti náhodné klasifikace. A pokud je současně celková správnost vyšší než správnost náhodné klasifikace , můžeme říci, že výsledek naší klasifikace je statisticky významně lepší než náhodná klasifikace.

Poznámka: Ze vzorečku vyplývá, že celková správnost náhodné klasifikace není vždy 0,5 (resp. 50%), jak bychom intuitivně předpokládali. Je to 0,5 (resp. 50%) jen v případě, pokud je počet subjektů či objektů v obou klasifikovaných skupinách stejný.

Příklad 3

Uvažujme výsledek klasifikace 100 testovacích subjektů pomocí metody nejbližšího souseda z Příkladu 2, při níž byla získána celková správnost 78,0%. Dodejme, že soubor sestával ze 70 kontrolních subjektů a 30 pacientů. Zjistěte, zda je tento výsledek klasifikace lepší než náhodná klasifikace.

Řešení
Ze zadání vyplývá, že celková správnost našeho klasifikátoru je . Správnost náhodné klasifikace vypočteme při znalosti celkového počtu subjektů a při znalosti počtu subjektů početnější skupiny , kterou jsou v tomto případě kontroly, jako: .

Hodnota testového kritéria je pak: , což není větší než 1,96. Tedy jsme neprokázali, že naše klasifikace je lepší než náhodná klasifikace. To by mohl být překvapující výsledek, protože správnost 78% sama o sobě často poukazuje na poměrně dobrý klasifikační výsledek. Musíme ale mít na paměti, že počet subjektů v obou skupinách nebyl stejný. Kontrolních subjektů je 70%, a tedy kdybychom všechny subjekty z našich dat zařadili pouze do skupiny kontrolních subjektů, dostali bychom úspěšnost 70%, což skutečně odpovídá naší vypočtené úspěšnosti .

Statistická nevýznamnost srovnání úspěšnosti naší klasifikace s náhodnou klasifikací vyplývá i z 95% intervalu spolehlivosti vypočteného v Příkladu 2, protože tento interval spolehlivosti (69,9% - 86,1%) obsahuje hodnotu 70%.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity