Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Klasifikace Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární Metoda podpůrných vektorů

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Nelineární verze metody podpůrných vektorů

Metoda podpůrných vektorů, jak jsme si dosud ukazovali, sloužila k oddělení dvou skupin objektů (či subjektů) pomocí lineární hranice. V praxi však může nastat situace, kdy by pro oddělení skupin objektů bylo vhodnější použít nelineární hranici (např. Obr. 12 vlevo). V takovém případě se jeví jako vhodné transformovat data do nového prostoru (zpravidla o vyšší dimenzi než původní prostor), ve kterém bude možné objekty oddělit lineárně (viz. Obr. 12 vpravo). Abychom toho dosáhli, můžeme při vytváření klasifikátoru použít místo p původních proměnných i jejich kvadratické či kubické formy, tedy vstupem do klasifikátoru budou např. proměnné . Takovéto rozšíření původního počtu proměnných pak umožní, že v prostoru, který bude mít nyní dimenzí, budou data lineárně separabilní. Místo polynomiálních členů můžeme samozřejmě použít jakékoliv jiné funkce v závislosti na typu dat. Musíme však mít na paměti, že přidání jakýchkoliv takovýchto členů může mnohonásobně zvýšit počet proměnných, takže pak budou výpočty velmi náročné. Metoda podpůrných vektorů (konkrétně její nelineární verze) však umí řešit takovéto navýšení počtu proměnných elegantním způsobem, takže se výpočetní náročnost příliš nezvyšuje.

Nelineární verze metody podpůrných vektorů totiž transformuje prostor specifickým způsobem, a to pomocí tzv. jader (kernels). U lineární metody podpůrných vektorů pro lineárně separabilní i neseparabilní třídy jsme si ukázali, že je možné upravit klasifikátor do podoby (26) resp. (40), přičemž skalární součin si můžeme zapsat obecně jako , kde je nějaká funkce, kterou nazveme jádro. Pokud

(41)

jedná se o lineární jádro a výsledným klasifikátorem je tedy lineární verze metody podpůrných vektorů. Můžeme ale volit i jiná jádra, která vedou k nelineární klasifikaci dat:

polynomiální jádro stupně d: ,
radiální bázové jádro: ,
atd.

Tato jádra nám umožní transformovat data do prostoru o vyšší dimenzi tím, že jsou počítány polynomiály stupně apod. Na rozdíl od situace, kdy bychom pouze přidali mocniny původních proměnných a provedli lineární verzi metody podpůrných vektorů, se však v tomto případě při použití jader výpočetní náročnost příliš nezvýší, protože ve skutečnosti nemusíme klasifikaci provádět v prostoru o vyšší dimenzi, pouze počítáme složitější jádro. Navíc u metody podpůrných vektorů (ať už její lineární či nelineární verze) je úspora výpočetní náročnosti i v tom, že mnoho členů z výrazu (26) resp. (40) je nulových, protože je nulové pro všechny objekty (resp. subjekty), které nejsou podpůrnými vektory.

Obr. 12. Princip nelineární verze metody podpůrných vektorů – transformace lineárně neseparabilních dat do prostoru o vyšší dimenzi, kde již jsou data lineárně separabilní.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity