Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Klasifikace Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární Fisherova lineární diskriminace

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Fisherova lineární diskriminace

Fisherova lineární diskriminace je stejně jako Bayesův klasifikátor a lineární verze metody podpůrných vektorů jednou z metod využívaných pro lineární klasifikaci dat. Pro základní vysvětlení podstaty této metody budeme uvažovat klasifikaci dvou tříd subjektů, a to pacientů a kontrol.

Principem Fisherovy lineární diskriminace je transformace do jednorozměrného (1-D) prostoru tak, abychom od sebe maximálně oddělili obě třídy (viz. Obr. 4). Je zřejmé, že pokud chceme od sebe dvě třídy separovat, měli bychom je promítnout tak, aby byly co nejdále od sebe, tzn., aby vzdálenost mezi jejich centroidy byla co největší. Ani velká vzdálenost centroidů však nemusí zaručit, že se po projekci nebudou lineárně separabilní třídy překrývat (viz projekce 1 v Obr. 4). Proto bychom měli vzít v úvahu i variabilitu uvnitř skupin, kterou chceme mít po projekci co nejmenší. Samotný požadavek na minimální variabilitu uvnitř skupin opět nemusí vést k úplnému oddělení lineárně separabilních tříd (viz projekce 2 v Obr. 4), proto se jeví jako vhodné použít kombinaci obou těchto požadavků.

Obr. 4: Princip Fisherovy lineární diskriminace. Projekce 1 (tzn. projekce na osu ) umožňuje dosažení větší vzdálenosti centroidů než projekce 2 (tzn. projekce na osu ), zatímco projekce 2 umožňuje získání menší variability mezi skupinami než projekce 1. Ani jedna z těchto projekcí však neumožňuje dokonalé oddělení obou skupin, protože se skupiny při těchto projekcích překrývají. Dokonalé oddělení obou skupin získáme až při projekci 3, která maximalizuje vzdálenost mezi skupinami a současně minimalizuje variabilitu uvnitř skupin.Osy a odpovídají dvěma proměnným. Čárkovaná čára ukazuje hranici mezi oběma třídami, která je kolmá na nadrovinu, do níž promítáme.

Podstatou Fisherovy lineární diskriminace je tedy projekce do 1-D prostoru tak, abychom maximalizovali vzdálenost skupin (odráží se v čitateli Fisherova diskriminačního kritéria) a minimalizovali variabilitu uvnitř skupin (odráží se ve jmenovateli Fisherova diskriminačního kritéria). Fisherovo diskriminační kritérium je tedy ve tvaru:

(2)

kde je projekce centroidu pacientů do 1-D prostoru, je projekce centroidu kontrol , je rozptyl uvnitř třídy pacientů po projekci do 1-D prostoru a je rozptyl uvnitř třídy kontrol. Centroidy jsou vícerozměrné průměry pro třídu pacientů a kontrol:

(3)

kde je hodnota první proměnné u -tého subjektu, je počet proměnných, je počet pacientů a je počet kontrolních subjektů. Projekce centroidů do 1-D prostoru mohou být vypočítány jako a , kde

je váhový vektor udávající směr 1-D prostoru, do něhož promítáme. Obecně může být průmět jakéhokoliv bodu do 1-D prostoru vypočítán jako a znázorněn pomocí Obr. 5.

Obr. 5: Znázornění projekce bodu do 1-D prostoru daného směrovým vektorem w. Bod
reprezentuje -tý subjekt a je jeho projekce. Osy a odpovídají dvěma proměnným.

Rozptyl uvnitř třídy pacientů po projekci do 1-D prostoru ( ) lze vypočítat jako čtverec vzdáleností projekcí bodů odpovídajících jednotlivým pacientům od projekce centroidu:

(4)

kde je kovarianční matice pacientů. Obdobně je možné rozptyl uvnitř třídy kontrol po projekci do 1-D prostoru ( ) vypočítat jako:

(5)

kde je kovarianční matice kontrol.

Dále si rozepíšeme součet rozptylů uvnitř jednotlivých tříd po transformaci do 1-D prostoru, který se vyskytuje ve jmenovateli Fisherova diskriminačního kritéria:

(6)

kde je suma čtverců variability uvnitř skupin a lze ji vypočítat jako: . V obecném případě, kdy nejsou vyvážené počty subjektů ve skupinách, se počítá vážená suma čtverců variability uvnitř skupin jako . Čitatel Fisherova diskriminačního kritéria si můžeme rozepsat jako:

(7)

kde je suma čtverců variability mezi skupinami.

Fisherovo diskriminační kritérium tedy můžeme vyjádřit jako:

(8)

Chceme maximalizovat , proto zderivujeme a položíme výraz roven 0:

(9)

Víme, že

má směr

, protože , kde

je nějaký skalár. U vektoru

nás nezajímá jeho modul (tzn. velikost), jen jeho směr, proto můžeme pominout skalární členy a . Dostáváme tedy:

(10)

z čehož můžeme vypočítat váhový vektor

jako:

(11)

Hranici mezi třídami lze pak vypočítat jako , kde je průmět hraničního bodu v 1-D prostoru a lze ho spočítat pomocí vztahu .

Pokud chceme zařadit nějaký nový subjekt do jedné z daných tříd, musíme nejprve vypočítat jeho průmět do 1-D prostoru a tento průmět následně srovnat s průmětem hraničního bodu. Pokud (přičemž ), subjekt zařadíme do skupiny kontrolních subjektů, jinak do skupiny pacientů.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity