E-learningová učebnice

Matematická biologie

Slovník | Vyhledávání | Mapa webu

Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Volba a výběr popisných proměnných Extrakce proměnných

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Základní informace | Výstupy z výuky | Úvod | Základní vymezení pojmů | Metriky pro určení vzdálenosti a podobnosti mezi dvěma vektory |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metoda nejbližšího souseda | Metoda k nejbližších sousedů | Metoda nejvzdálenějšího souseda | Metoda průměrné vazby | Centroidová metoda | Wardova metoda |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Výstupy z výukové jednotky | Výpočet asociační matice | Vizualizace asociační matice | Meansim (MSA) | Mantelův test | Prokrustova analýza | Vícenásobná regrese na asociačních maticích | Literatura |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Výstupy z výukové jednotky | Úvod | Metoda k-průměrů | Metoda x-průměrů | Metoda k-medoidů | Literatura |

Validace shlukové analýzy |

Výstupy z výukové jednotky | Úvod | Dunnův validační index | Daviesův-Bouldinův validační index (Davies-Bouldin validity index) | Validační metoda siluety | Izolační index (Isolation index) | C-index | Goodmanův-Kruskalův index (Goodman-Kruskal index) | Meansim (MSA) | Literatura |

Volba a výběr popisných proměnných |

Výstupy z výukové jednotky | Úvod | Volba popisných proměnných | Výběr popisných proměnných | Selekce proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Algoritmus ohraničeného větvení | Algoritmus sekvenční dopředné selekce | Algoritmus sekvenční zpětné selekce | Algoritmus plus p – mínus q | Algoritmus min – max |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Výstupy z výukové jednotky | Princip | Odvození | Geometrická interpretace | Vlastnosti | Zobecnění pro více tříd | Příklady |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Výstupy z výukové jednotky | Základní pojmy u korespondenční analýzy | Vzdálenost u korespondenční analýzy | Výpočetní algoritmus | Korespondenční mapa | Hodnocení modelu | Požadavky na data a omezení korespondenční analýzy | Použití korespondenční analýzy v ekologii | Literatura |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Výstupy z výukové jednotky | Princip faktorové analýzy | Porovnání faktorové analýzy a analýzy hlavních komponent | Model faktorové analýzy | Rotace faktorů | Příklad | Literatura |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Výstupy z výukové jednotky | Výpočet koinerční analýzy | Detailní postup výpočtu koinerční analýzy | Příklad | Literatura |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Výstupy z výukové jednotky | Úvod do varietního učení | Metoda ISOMAP | Metoda lokálně lineárního vnoření | Literatura |

Klasifikace |

Úvod |

Úvod do klasifikace dat | Výstupy z výukové jednotky | Klasifikace dat | Typy klasifikátorů podle reprezentace vstupních dat | Typy klasifikátorů podle jednoznačnosti zařazení do skupin | Typy klasifikátorů podle typů klasifikačních a učících algoritmů | Typy klasifikátorů podle způsobu učení | Typy klasifikátorů podle principu klasifikace | Literatura |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Lineární verze metody podpůrných vektorů – lineárně separabilní třídy | Lineární verze metody podpůrných vektorů – lineárně neseparabilní třídy | Nelineární verze metody podpůrných vektorů | Příklad 1 | Příklad2 |

Literatura |

Sekvenční klasifikace |

Výstupy z výukové jednotky | Úvod do sekvenční klasifikace | Waldovo kritérium | Reedovo kritérium | Modifikované Waldovo kritérium | Modifikované Reedovo kritérium | Literatura |

Hodnocení úspěšnosti klasifikace |

Výstupy z výukové jednotky | Úvod do hodnocení úspěšnosti klasifikace | Rozdělení souboru na trénovací a testovací data | Resubstituce | Náhodný výběr s opakováním | Predikční testování externí validací | k-násobná křížová validace | Obecné poznámky k rozdělení souboru na trénovací a testovací data | Srovnání úspěšnosti klasifikace s náhodnou klasifikací | Srovnání úspěšnosti klasifikace dvou klasifikátorů | Srovnání úspěšnosti klasifikace třech a více klasifikátorů | Literatura |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Determinant | Hodnost matice | Stopa matice | Inverzní matice | Vlastní (charakteristická) čísla a vlastní (charakteristické) vektory matice | Rozklad na singulární hodnoty |

Príloha B - Značení |

Vícerozměrná data a jejich popisné statistiky | Asociační matice | Podobnosti a vzdálenosti ve vícerozměrném prostoru | Ordinační analýza | Klasifikace | Maticový počet |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Extrakce proměnných

Jak již bylo uvedeno v kapitole věnované výběru proměnných [Výběr popisných proměnných], extrakce proměnných spočívá v hledání optimálního zobrazení , které transformuje původní -rozměrný vektor popisující analyzovaný objekt na vektor -rozměrný.

Co nám tyto metody přinesou? Především zjednodušení následných analytických výpočtů, které se budou provádět s méně proměnnými, tj. v méně rozměrném prostoru. Na druhé straně extrakce proměnných nezbaví analytika, na rozdíl od selekčních metod, nutnosti měřit a pořizovat všechna data (hodnoty všech proměnných) tak, jak bylo až dosud zvykem, protože proměnné, které jsou výsledkem extrakčních algoritmů, jsou dány (lineární) kombinací všech proměnných původních. Toto omezení však často bývá pouze formální, protože databáze, nad kterou se analýza provádí, je už zpravidla pořízená, a k úsporám, které by vyplývaly ze selekce proměnných, v podstatě dojít nemůže. Tuto výhodu/nevýhodu ale kompenzuje skutečnost, že získáme z původních proměnných nové a funkční vazba mezi originálními a transformovanými souřadnicemi může poskytnout nový vhled do dějů, které jsou zdrojem měřených dat.

Prvním předpokladem pro nalezení vhodného zobrazení je stanovení kritéria optimality. V současné praxi se používá především tří následujících kritérií:

zobrazení se určí tak, aby vektory z nového prostoru aproximovaly původní m-rozměrné vektory z ve smyslu minimální střední kvadratické odchylky;
zobrazení se určí tak, aby rozložení pravděpodobnosti veličin v novém prostoru splňovaly podmínky kladené na jejich pravděpodobnostní charakteristiky;
zobrazení se určí tak, aby vektory z minimalizovaly odhad pravděpodobnosti chyby.

Aby byl uvedený problém teoreticky příjemně řešitelný, vybírá se zobrazení (transformace) především z oboru lineárních zobrazení (transformací).

Z metod extrakce proměnných se budeme zabývat analýzou hlavních komponent (PCA – Principal Component Analysis) , korespondenční analýzou (CA –Correspondence Analysis) [odkaz], vícerozměrným škálováním (MDS – Multidimensional Scaling), faktorovou analýzou (FA – Factor Analysis) , analýzou nezávislých komponent (ICA – Independent Component Analysis) a dalšími metodami, kterým jsou věnovány následující samostatné kapitoly a podkapitoly těchto učebních textů.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity