Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Ordinační analýzy Vícerozměrné škálování Nemetrické vícerozměrné škálování

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Výpočetní algoritmus

Cílem NMDS je najít konfiguraci bodů (souřadnic, vzdáleností, disparit) minimalizující ztrátovou funkci. Minimalizace ztrátové funkce probíhá pomocí iterativního algoritmu ve dvou krocích:

1. Hledání optimální monotónní transformace dat (optimální škálování);
2. Hledání optimálních souřadnic (odhad parametrů).

Celý iterativní algoritmus je pak obecně popisován ve čtyřech krocích (Obr. 5):

1. Určení rozměrů a výchozí matice souřadnic (počáteční konfigurace);
2. Optimální škálování - nemetrická fáze (výpočet disparit );
3. Odhad parametrů - metrická fáze (výpočet souřadnic);
4. Determinace hodnoty ztrátové funkce (STRESS).

Obr. 5: Algoritmus nemetrického vícerozměrného škálování.

Výchozím krokem je určení počáteční konfigurace pro objektů v -rozměrném prostoru. Prvním krokem výpočtu je tedy uspořádání všech souřadnic objektů v množině do vektoru s prvky . Tento vektor použijme jako souřadnice objektů v počáteční konfiguraci, kterou označíme . K jejímu určení můžeme použít několik různých metod, může být odvozena z výsledků analýzy hlavních komponent nebo analýzy hlavních koordinát, nebo např. i jednoduchým generováním náhodných čísel. Konfiguraci je vhodné centrovat do středu souřadného systému.

Ze souřadnic počáteční konfigurace (případně konfigurace z poslední iterace) provedeme odhad disparit a hodnoty ztrátové funkce STRESS. Během této fáze zůstávají hodnoty souřadnic i vzdáleností konstantní. Je-li hodnota STRESSu menší než předem zvolené nízké číslo (obvykle 0,001), výpočet končí. Není-li podmínka splněna, probíhá další přepočet spočívající v odhadu nových souřadnic, disparit a hodnoty ztrátové funkce. Výpočet nových souřadnic vychází z odhadů nových disparit a odhadů souřadnic a vzdáleností v minulé iteraci. Kritériem kvality konfigurace je funkce STRESS. V této fázi zůstávají konstantní hodnoty disparit . Iterativním procesem je nalezeno lokální minimum ztrátové funkce (minimální hodnota STRESS-u pro dané nastavení počtu rozměrů). Celý proces končí buď dosažením požadované velikosti funkce STRESS, nebo po dosažení určitého počtu iterací.

Výsledkem výpočtu jsou pak souřadnice všech objektů v -rozměrném prostoru; tj. výsledná konfigurace bodů znázorňující v grafickém zobrazení vzájemné vztahy objektů. Uspořádání je závislé na počtu zvolených dimenzí ().

Při NMDS je jedním z klíčových kroků rozhodnutí o počtu použitých rozměrů. Pro různá nastavení počtu rozměrů spočítáme výsledné hodnoty STRESSu. Se zvyšujícím se počtem rozměrů hodnota STRESSu klesá, hodnoty lze vykreslit do grafu. Zobrazení závislosti STRESSu na počtu rozměrů bývá užitečné k rozhodnutí o skutečném počtu rozměrů, které budou použity. Obecně platí, že čím víc dimenzí používáme k reprodukci matice vzdáleností, tím lépe výsledná konfigurace vysvětluje pozorované vzdálenosti v původních datech (tj. tím menší je STRESS). Samozřejmě naším cílem je redukce pozorovaných dat, tj. vysvětlit matici vzdáleností pomocí menšího počtu dimenzí. Získané rozměry by ale měly být interpretovatelné. Každému rozměru by měl být přiřazen věcný význam. V NMDS je pořadí os náhodné: první osa není nutně důležitější než druhá osa, atd. Proto je někdy užitečné výslednou konfiguraci v souřadném systému rotovat a tím usnadnit interpretaci výsledku.

Kvalitu celého modelu můžeme hodnotit podle výsledné hodnoty STRESSu (Tab. 11).

Tabulka 11: Kvalita modelu NMDS

Tato tabulka nám může být nápomocná i při určení správného počtu rozměrů. Obecně není nutné redukovat počet rozměrů do té míry, že STRESS přesáhne hodnotu 0,1. Podobně není potřeba zvyšovat počet rozměrů když STRESS je již menší než 0,05.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity