Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Pokročilejší metody extrakce proměnných Metody varietního učení Metoda ISOMAP

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Metoda ISOMAP

Metoda ISOMAP, což je zkratka z Isometric Feature Mapping, vychází z nemetrického vícerozměrného škálování, přičemž snahou je zachovat vnitřní geometrii dat, jež je zachycena pomocí geodézních vzdáleností (geodesis distance). Geodézní vzdálenosti jsou založeny na hledání nejkratších cest v grafu s hranami spojujícími sousední body resp. objekty (viz. Obr. 4). Existují dvě varianty této metody (-ISOMAP a -ISOMAP), které budou představeny níže.

Obr. 4: Vizualizace aproximace geodézní vzdálenosti (vyznačeny červeně) dvou bodů (označeny kolečky) – a) v původním trojrozměrném prostoru; b) v redukovaném dvourozměrném prostoru (přičemž modře je vyznačena nejkratší skutečná vzdálenost mezi danými body – vidíme, že geodézní vzdálenost je dobrou aproximací skutečné vzdálenosti). Obrázek převzat z [1].

Metoda ISOMAP má tři kroky:

Vytvoření grafu spojujícího sousední objekty – nejprve je nutno vypočítat vzdálenosti mezi všemi objekty (nejčastěji se používá Euklidova metrika vzdáleností, je však možné použít i jinou metriku vzdáleností); poté dojde ke spojení objektů tak, že se j-tý objekt spojí s těmi objekty, jejichž vzdálenost je menší než ε (v případě ε-ISOMAP), nebo s jeho k nejbližšími sousedy (v případě k-ISOMAP), přičemž v obou případech délky hran ve výsledném grafu odpovídají vzdálenosti .
Výpočet geodézních vzdáleností mezi všemi objekty nalezením nejkratší cesty v grafu mezi danými objekty – iniciální nastavení závisí na tom, jestli jsou objekty spojené hranou či nikoliv (pokud jsou objekty spojeny hranou: ; pokud ne: ); poté je pro každé nahrazena vzdálenost hodnotou .
Aplikace nemetrického vícerozměrného škálování (MDS) na matici geodézních vzdáleností – tzn. transformace dat do Euklidovského prostoru tak, aby byly co nejlépe zachovány geodézní vzdálenosti.

Ukázka použití metody ISOMAP pro nalezení nových komponent v datech obrazů tváří je na Obr. 5. Vstupem do algoritmu -ISOMAP (s =6) bylo 698 obrazů tváří o rozměru 64 x 64 pixelů (tedy počet proměnných byl 4096). Výsledkem je redukce původních proměnných na pouze tři komponenty, které lze interpretovat jako pravolevé natočení tváře, vertikální pozice tváře a směr osvětlení.

Obr. 5: Výsledek analýzy obrazů tváří pomocí metody ISOMAP – a)dvourozměrná vizualizace všech vstupních tváří (modré tečky) s ukázkami vybraných obrazů tváří (vyznačeny červenými kolečky), přičemž osy odpovídají dvěma nově vytvořeným komponentám (pravolevému natočení tváře a vertikální pozici tváře) a posuvník pod obrázkem reprezentuje třetí komponentu (směr osvětlení); b) interpolace podél os v podprostoru obrazů tváří (horní řada ukazuje otáčení hlavy zprava doleva, spodní řada ukazuje pohyb hlavy shora dolů). Obrázky převzaty z [1].

Na závěr shrňme výhody a nevýhody metody ISOMAP oproti dalším metodám varietního učení. Výhodou této metody je, že zachovává globální strukturu dat a vyžaduje nastavení malého množství parametrů. Mezi hlavní nevýhody patří výpočetní náročnost a citlivost k šumu.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity