E-learningová učebnice

Matematická biologie

Slovník | Vyhledávání | Mapa webu

Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Ordinační analýzy Analýza hlavních komponent (PCA) Příklady

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Základní informace | Výstupy z výuky | Úvod | Základní vymezení pojmů | Metriky pro určení vzdálenosti a podobnosti mezi dvěma vektory |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metoda nejbližšího souseda | Metoda k nejbližších sousedů | Metoda nejvzdálenějšího souseda | Metoda průměrné vazby | Centroidová metoda | Wardova metoda |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Výstupy z výukové jednotky | Výpočet asociační matice | Vizualizace asociační matice | Meansim (MSA) | Mantelův test | Prokrustova analýza | Vícenásobná regrese na asociačních maticích | Literatura |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Výstupy z výukové jednotky | Úvod | Metoda k-průměrů | Metoda x-průměrů | Metoda k-medoidů | Literatura |

Validace shlukové analýzy |

Výstupy z výukové jednotky | Úvod | Dunnův validační index | Daviesův-Bouldinův validační index (Davies-Bouldin validity index) | Validační metoda siluety | Izolační index (Isolation index) | C-index | Goodmanův-Kruskalův index (Goodman-Kruskal index) | Meansim (MSA) | Literatura |

Volba a výběr popisných proměnných |

Výstupy z výukové jednotky | Úvod | Volba popisných proměnných | Výběr popisných proměnných | Selekce proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Algoritmus ohraničeného větvení | Algoritmus sekvenční dopředné selekce | Algoritmus sekvenční zpětné selekce | Algoritmus plus p – mínus q | Algoritmus min – max |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Výstupy z výukové jednotky | Princip | Odvození | Geometrická interpretace | Vlastnosti | Zobecnění pro více tříd | Příklady |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Výstupy z výukové jednotky | Základní pojmy u korespondenční analýzy | Vzdálenost u korespondenční analýzy | Výpočetní algoritmus | Korespondenční mapa | Hodnocení modelu | Požadavky na data a omezení korespondenční analýzy | Použití korespondenční analýzy v ekologii | Literatura |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Výstupy z výukové jednotky | Princip faktorové analýzy | Porovnání faktorové analýzy a analýzy hlavních komponent | Model faktorové analýzy | Rotace faktorů | Příklad | Literatura |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Výstupy z výukové jednotky | Výpočet koinerční analýzy | Detailní postup výpočtu koinerční analýzy | Příklad | Literatura |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Výstupy z výukové jednotky | Úvod do varietního učení | Metoda ISOMAP | Metoda lokálně lineárního vnoření | Literatura |

Klasifikace |

Úvod |

Úvod do klasifikace dat | Výstupy z výukové jednotky | Klasifikace dat | Typy klasifikátorů podle reprezentace vstupních dat | Typy klasifikátorů podle jednoznačnosti zařazení do skupin | Typy klasifikátorů podle typů klasifikačních a učících algoritmů | Typy klasifikátorů podle způsobu učení | Typy klasifikátorů podle principu klasifikace | Literatura |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Lineární verze metody podpůrných vektorů – lineárně separabilní třídy | Lineární verze metody podpůrných vektorů – lineárně neseparabilní třídy | Nelineární verze metody podpůrných vektorů | Příklad 1 | Příklad2 |

Literatura |

Sekvenční klasifikace |

Výstupy z výukové jednotky | Úvod do sekvenční klasifikace | Waldovo kritérium | Reedovo kritérium | Modifikované Waldovo kritérium | Modifikované Reedovo kritérium | Literatura |

Hodnocení úspěšnosti klasifikace |

Výstupy z výukové jednotky | Úvod do hodnocení úspěšnosti klasifikace | Rozdělení souboru na trénovací a testovací data | Resubstituce | Náhodný výběr s opakováním | Predikční testování externí validací | k-násobná křížová validace | Obecné poznámky k rozdělení souboru na trénovací a testovací data | Srovnání úspěšnosti klasifikace s náhodnou klasifikací | Srovnání úspěšnosti klasifikace dvou klasifikátorů | Srovnání úspěšnosti klasifikace třech a více klasifikátorů | Literatura |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Determinant | Hodnost matice | Stopa matice | Inverzní matice | Vlastní (charakteristická) čísla a vlastní (charakteristické) vektory matice | Rozklad na singulární hodnoty |

Príloha B - Značení |

Vícerozměrná data a jejich popisné statistiky | Asociační matice | Podobnosti a vzdálenosti ve vícerozměrném prostoru | Ordinační analýza | Klasifikace | Maticový počet |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Příklad 4

Bylo provedeno měření výšky (v cm) a váhy (v kg) u pěti dětí. Naměřené hodnoty byly zaznamenány do matice :

U tohoto datového souboru proveďte analýzu hlavních komponent.

Řešení:
U analýzy hlavních komponent potřebujeme nejprve spočítat kovarianční matici . Pro výpočet kovarianční matice potřebujeme znát průměrnou výšku a váhu u dětí:

Jednotlivé prvky kovarianční matice poté spočítáme následujícím způsobem:

Rozptyl výšky:

Rozptyl váhy:

Kovariance výšky a váhy:

Kovarianční matice je tedy:
.

Nyní spočítáme vlastní čísla a vlastní vektory kovarianční matice – tzn., spočítáme následující determinant:

Vypočteme charakteristický polynom:

A jeho kořeny, které odpovídají vlastním číslům:

Následně spočítáme vlastní vektor odpovídající prvnímu vlastnímu číslu :

; ; např. pro pak dostáváme: , který je po normalizaci roven . Kontrola, že vektor má jednotkovou délku: .

Spočítáme vlastní vektor odpovídající druhému vlastnímu číslu :

; ; např. pro pak dostáváme: , který je po normalizaci roven . Kontrola, že vektor má jednotkovou délku: .

Vlastní vektory můžeme uspořádat do matice , přičemž pořadí vlastních vektorů odpovídá pořadí vlastních čísel seřazených od největšího k nejmenšímu.

Nyní vyjádříme hlavní komponenty odpovídající vlastním číslům seřazeným od největšího k nejmenšímu – hlavní komponenty jsou lineární kombinace původních proměnných, přičemž koeficienty jsou souřadnice příslušného vlastního vektoru:

hlavní komponenta: (pro )
hlavní komponenta: (pro )

Výpočet procent vyčerpané variability:

hlavní komponenta vyčerpává: (tzn., 92,93% variability v datech)
hlavní komponenta vyčerpává: (tzn., 7,07% variability v datech)

Vyčerpanou variabilitu můžeme znázornit i pomocí sutinového grafu:

Dále spočítáme korelace hlavních komponent s původními proměnnými:

První hlavní je vysoce korelována s váhou a středně korelována s výškou. Druhá hlavní komponenta je středně záporně korelována s výškou.

Na závěr vypočítáme nové souřadnice původních bodů po transformaci pomocí obou hlavních komponent spočítaných pomocí PCA:

Souřadnice subjektů můžeme přímo získat i z hlavních komponent – např. pro první subjekt:

Původní data i data po transformaci pomocí PCA si znázorníme:

Pokud bychom k transformaci použili pouze první vlastní vektor, získáváme data v prostoru první hlavní komponenty:

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity