Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Klasifikace Hodnocení úspěšnosti klasifikace Srovnání úspěšnosti klasifikace třech a více klasifikátorů

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Srovnání úspěšnosti klasifikace třech a více klasifikátorů

V případě srovnání třech a více klasifikátorů ověřujeme, zda jsou statisticky významně odlišné dosažené správnosti klasifikace stejných testovacích dat pomocí daných klasifikátorů (tzn. nulová hypotéza , kde je správnost -tého klasifikátoru). Pro srovnání správností můžeme použít Cochranův Q test nebo F-test. Pokud zjistíme, že je statisticky významný rozdíl ve výsledcích klasifikátorů, můžeme poté srovnávat správnosti klasifikátorů vždy po dvou, aby se zjistilo, které klasifikátory se od sebe liší, přičemž výsledky bychom měli korigovat na mnohonásobné porovnávání (tedy obdobně jako při analýze rozptylu následně provádíme post-hoc testy).

Cochranův Q test vypočítáme jako:

(10)

kde je počet subjektů správně klasifikovaných pomocí -tého klasifikátoru, je počet klasifikátorů (z celkového počtu ), které správně klasifikovaly -tý subjekt, a je celkový počet správných hlasů pomocí klasifikátorů, přičemž . Pokud , zamítáme nulovou hypotézu o shodnosti celkové správnosti klasifikace pomocí třech či více klasifikátorů.

F-test je založen na výpočtu sumy čtverců pro klasifikátory a sumy čtverců pro subjekty, přičemž suma čtverců pro klasifikátory se spočítá jako:

(11)

kde je průměr ze správností všech klasifikátorů ; tedy .

Sumu čtverců pro subjekty lze spočítat následujícím způsobem:

(12)

Celková suma čtverců je pak rovna:

(13)

a suma čtverců pro interakci klasifikátor – subjekt je rovna:

(14)

Na základě uvedených sum čtverců vypočteme F-statistiku jako:

(15)

Pokud , zamítáme nulovou hypotézu o shodnosti celkové správnosti klasifikace pomocí třech či více klasifikátorů.

Cochranův Q test i F-test jsou validní testy pro srovnání klasifikace třech a více klasifikátorů. Looney (1988) však doporučuje používat F-test, protože je méně konzervativní.

Příklad 5

Srovnejte úspěšnost klasifikace 100 testovacích subjektů pomocí třech klasifikačních metod. Výsledky klasifikace jsou uvedeny v tabulce:

Klasifikátor 1	Klasifikátor 2	Klasifikátor 3	Počet subjektů
správně (1)	správně (1)	správně (1)	80
správně (1)	správně (1)	chybně (0)	2
správně (1)	chybně (0)	správně (1)	0
správně (1)	chybně (0)	chybně (0)	2
chybně (0)	správně (1)	správně (1)	9
chybně (0)	správně (1)	chybně (0)	1
chybně (0)	chybně (0)	správně (1)	3
chybně (0)	chybně (0)	chybně (0)	3

Řešení

Nejprve spočítáme počty subjektů správně klasifikovaných jednotlivými klasifikátory: ; a . Rovněž spočítáme správnosti klasifikace získané jednotlivými klasifikátory: ; a . Dále potřebujeme vypočítat , přičemž si musíme uvědomit, že všemi třemi klasifikátory bylo správně klasifikováno 80 subjektů (2. řádek tabulky), dvěma klasifikátory bylo správně klasifikováno subjektů (3., 4. a 6. řádek tabulky) a jedním klasifikátorem bylo správně klasifikováno subjektů (5., 7. a 8. řádek tabulky). Tedy .

Pro Cochranův Q test potřebujeme ještě spočítat . Cochranův Q test pak vypočteme jako . Protože (což je tabelovaná hodnota pro ), nemůžeme zamítnout nulovou hypotézu o shodnosti úspěšnosti klasifikace danými klasifikátory.

Pro F-test nejprve spočítáme průměrnou správnost a pak postupně spočítáme jednotlivé sumy čtverců:

Z těchto sum čtverců vypočteme . Protože (což je tabelovaná hodnota pro , tzn. ), zamítáme nulovou hypotézu o shodnosti úspěšnosti klasifikace pomocí daných třech klasifikátorů.

Z výsledků tedy vyplývá, že dle Cochranova Q testu jsme nepotvrdili, že by byl statisticky významný rozdíl v úspěšnostech daných třech klasifikátorů, zatímco dle F-testu řekneme, že je statisticky významný rozdíl v úspěšnostech pomocí daných klasifikátorů (přesněji, že alespoň jeden z klasifikátorů má statisticky významně odlišnou úspěšnost než ostatní). Vzhledem k tomu, že Looney (1988) doporučuje používat F-test, přikloníme se k tomu, že je tedy statisticky významný rozdíl v úspěšnostech klasifikace u těchto třech klasifikátorů. Pokud se podíváme na dosažené úspěšnosti, můžeme výsledky interpretovat tak, že klasifikátor 1 má statisticky významně horší úspěšnost ve srovnání s dalšími dvěma klasifikátory.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity