Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Ordinační analýzy Vícerozměrné škálování Nemetrické vícerozměrné škálování

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Základní pojmy a ztrátová funkce

Uvažujme objektů popsaných -rozměrným vektorem a matici nepodobností , ke kterým je hledána optimální konfigurace bodů v -rozměrném prostoru (). Matice nepodobností je čtvercová matice: , kde je nepodobnost mezi -tým a -tým objektem.
Na hlavní diagonále matice jsou nuly, tj. pro všechny sledované objekty platí = 0. Na rozdíl od metrického škálování, kde jsou vzdálenosti v redukovaném prostoru aproximací původních vzdáleností v asociační matici, je u NMDS zachováno pouze pořadí vzdáleností mezi objekty.

Pro nemetrické škálování platí vztah

(27)

kde je monotónní funkce, pro kterou platí pro všechna .
Předpokladem NMDS je zachování pořadí vzdáleností mezi body v konfiguraci .

(28)

s pořadím původních nepodobností

(29)

kde index pořadí určuje míru nepodobnosti od nejmenší k největší. Hodnoty představují odhady měr vzdáleností mezi objekty o souřadnicích v obecném Minkowského prostoru

(30)

Vzdálenost v konfiguraci bývá často počítána jako Euklidova vzdálenost, což je Minkowkého metrika pro . Předpoklad zachování pořadí vzdáleností a nepodobností je mnohem mírnější než předpoklad shody jejich číselných hodnot (jak je tomu u metrického MDS). Nemetrické MDS je proto robustnější k odlehlým hodnotám.

Objekty se nedají seřadit tak, aby jejich vzájemné vzdálenosti v redukovaném prostoru byly stejné jako původní hodnoty vzdáleností/nepodobností. Míra neurčitosti, která hodnotí, jak dobře odhadnuté souřadnice bodů v konfiguraci reprodukují původní nepodobnosti, je ztrátová funkce (loss function, goodness of fit). Ztrátová funkce nabývá hodnot od nuly do jedné; čím je hodnota nižší, tím je výsledek lepší.

Základním výstupem NMDS jsou odhady souřadnic objektů v -rozměrném prostoru s odpovídajícími odhady vzdáleností _' podle (30). Dále jsou počítány tzv. disparity (disparities) , představující funkční hodnoty vzdáleností mezi objekty tj. . Disparity jsou určovány tak, aby byly co nejblíže odhadnutým vzdálenostem a přitom zachovávaly podmínku monotónnosti, tj. když , potom .

Nemetrické řešení v -rozměrném prostoru je pak získáno ordinací, která minimalizuje ztrátovou funkci nazývanou ve svém minimu STRESS. STRESS si můžeme přestavit jako rozsah, ke kterému má být prostorová konfigurace bodů stlačena ("stressed"), aby byla dosažena původní vzdálenost .

$STRESS=\sqrt{\frac{\sum_{i}\sum_{i'}(\hat{d}_{ii'}-\hat{\delta}_{ii'})^2}{\sum_{i}\sum_{i'}\hat{\delta}^{2}_{ii'}}$

(31)

Grafické znázornění vztahu mezi disparitami , vzdálenostmi v konfiguraci (obě na ose y) a mírami nepodobnosti (na ose x) nazýváme Shepardův diagram. Zobrazuje tedy vztah původního a redukovaného prostoru. Shepardův diagram má podobu bodového grafu s proloženou křivkou monotónní regrese. Škála na ose x odpovídá škále v matici nepodobností, škála na ose y pak rozpětí odhadů vzdáleností a disparit. Každý bod představuje jeden prvek v matici nepodobností. V ideálním případě leží všechny body na křivce tvořené hodnotami disparit; v tomto případě je hodnota STRESSu rovná nule. Čím jsou body rozptýlenější kolem křivky, tím větší nepřesnosti nastaly nahrazováním měr nepodobností disparitami a tím vyšší je hodnota STRESSu.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity