E-learningová učebnice

Matematická biologie

Slovník | Vyhledávání | Mapa webu

Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Volba a výběr popisných proměnných Výběr popisných proměnných

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Základní informace | Výstupy z výuky | Úvod | Základní vymezení pojmů | Metriky pro určení vzdálenosti a podobnosti mezi dvěma vektory |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metoda nejbližšího souseda | Metoda k nejbližších sousedů | Metoda nejvzdálenějšího souseda | Metoda průměrné vazby | Centroidová metoda | Wardova metoda |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Výstupy z výukové jednotky | Výpočet asociační matice | Vizualizace asociační matice | Meansim (MSA) | Mantelův test | Prokrustova analýza | Vícenásobná regrese na asociačních maticích | Literatura |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Výstupy z výukové jednotky | Úvod | Metoda k-průměrů | Metoda x-průměrů | Metoda k-medoidů | Literatura |

Validace shlukové analýzy |

Výstupy z výukové jednotky | Úvod | Dunnův validační index | Daviesův-Bouldinův validační index (Davies-Bouldin validity index) | Validační metoda siluety | Izolační index (Isolation index) | C-index | Goodmanův-Kruskalův index (Goodman-Kruskal index) | Meansim (MSA) | Literatura |

Volba a výběr popisných proměnných |

Výstupy z výukové jednotky | Úvod | Volba popisných proměnných | Výběr popisných proměnných | Selekce proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Algoritmus ohraničeného větvení | Algoritmus sekvenční dopředné selekce | Algoritmus sekvenční zpětné selekce | Algoritmus plus p – mínus q | Algoritmus min – max |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Výstupy z výukové jednotky | Princip | Odvození | Geometrická interpretace | Vlastnosti | Zobecnění pro více tříd | Příklady |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Výstupy z výukové jednotky | Základní pojmy u korespondenční analýzy | Vzdálenost u korespondenční analýzy | Výpočetní algoritmus | Korespondenční mapa | Hodnocení modelu | Požadavky na data a omezení korespondenční analýzy | Použití korespondenční analýzy v ekologii | Literatura |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Výstupy z výukové jednotky | Princip faktorové analýzy | Porovnání faktorové analýzy a analýzy hlavních komponent | Model faktorové analýzy | Rotace faktorů | Příklad | Literatura |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Výstupy z výukové jednotky | Výpočet koinerční analýzy | Detailní postup výpočtu koinerční analýzy | Příklad | Literatura |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Výstupy z výukové jednotky | Úvod do varietního učení | Metoda ISOMAP | Metoda lokálně lineárního vnoření | Literatura |

Klasifikace |

Úvod |

Úvod do klasifikace dat | Výstupy z výukové jednotky | Klasifikace dat | Typy klasifikátorů podle reprezentace vstupních dat | Typy klasifikátorů podle jednoznačnosti zařazení do skupin | Typy klasifikátorů podle typů klasifikačních a učících algoritmů | Typy klasifikátorů podle způsobu učení | Typy klasifikátorů podle principu klasifikace | Literatura |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Lineární verze metody podpůrných vektorů – lineárně separabilní třídy | Lineární verze metody podpůrných vektorů – lineárně neseparabilní třídy | Nelineární verze metody podpůrných vektorů | Příklad 1 | Příklad2 |

Literatura |

Sekvenční klasifikace |

Výstupy z výukové jednotky | Úvod do sekvenční klasifikace | Waldovo kritérium | Reedovo kritérium | Modifikované Waldovo kritérium | Modifikované Reedovo kritérium | Literatura |

Hodnocení úspěšnosti klasifikace |

Výstupy z výukové jednotky | Úvod do hodnocení úspěšnosti klasifikace | Rozdělení souboru na trénovací a testovací data | Resubstituce | Náhodný výběr s opakováním | Predikční testování externí validací | k-násobná křížová validace | Obecné poznámky k rozdělení souboru na trénovací a testovací data | Srovnání úspěšnosti klasifikace s náhodnou klasifikací | Srovnání úspěšnosti klasifikace dvou klasifikátorů | Srovnání úspěšnosti klasifikace třech a více klasifikátorů | Literatura |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Determinant | Hodnost matice | Stopa matice | Inverzní matice | Vlastní (charakteristická) čísla a vlastní (charakteristické) vektory matice | Rozklad na singulární hodnoty |

Príloha B - Značení |

Vícerozměrná data a jejich popisné statistiky | Asociační matice | Podobnosti a vzdálenosti ve vícerozměrném prostoru | Ordinační analýza | Klasifikace | Maticový počet |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Výběr popisných proměnných

Jak bylo uvedeno dříve, nedokážeme určit nejvhodnější veličiny z hlediska analýzy či klasifikace přímo, nýbrž pouze vybrat z předem dané množiny veličin. To znamená, že se objekt, reprezentovaný původně -rozměrným vektorem hodnot jednotlivých proměnných, snažíme vyjádřit vektorem m-rozměrným tak, aby množství tzv. diskriminační informace obsažené v původním vektoru bylo v co největší míře zachováno. Výběr proměnných se tedy převádí na hledání zobrazení , kterým se původní p-rozměrný prostor transformuje do nového m-rozměrného prostoru .

Zmenšení rozměru obrazového prostoru lze dosáhnout dvěma principiálně různými způsoby (Obr.2):

Obr.2: Principy výběru proměnných – a) selekce; b) extrakce.

selekce – nalezení těch proměnných, které přispívají k separabilitě klasifikačních tříd nejméně, a pro klasifikaci se z původní množiny ponechá jen nejvíce informativních proměnných. Zobrazení tedy pouze vynechává proměnných.
extrakce – transformace původních proměnných na menší počet jiných proměnných.

K tomu, abychom dokázali realizovat libovolný z obou způsobů výběru proměnných, je třeba definovat a splnit určité podmínky optimality.

Nechť je kriteriální funkce, jejíž pomocí vybíráme proměnné. Pak v případě selekce vybíráme vektor ze všech možných -tic proměnných , . Optimalizaci výběru proměnných tudíž můžeme formálně zapsat jako

(1)

Problémy, které je nutné vyřešit, jsou stanovení kriteriální funkce, rozměru nového prostoru a optimalizačního postupu.

Při extrakční alternativě transformujeme prostor na základě výběru zobrazení z množiny všech možných zobrazení z prostoru do , tj.

(2)

I v tomto případě je potřeba určit vhodnou kriteriální funkci, rozměr nového obrazového prostoru a rovněž zvolit požadavky na vlastnosti zobrazení i vhodný optimalizační postup (pokud nevyplývá z vlastností zobrazení).

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity