Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Podobnosti a vzdálenosti ve vícerozměrném prostoru Metriky pro určení vzdálenosti mezi dvěma množinami vektorů Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Metoda nejvzdálenějšího souseda

Je založena na přesně opačném principu než obě předcházející metody. Platí, že

(62)

tedy vzdálenost mezi dvěma množinami je dána maximální vzdáleností mezi všemi možnými zástupci obou množin (Obr. 5). Generování protáhlých struktur tato metoda potlačuje, naopak vede k tvorbě nevelkých kompaktních množin.

Obr. 5: Vzdálenost dvou množin u metody nejvzdálenějšího souseda (podle [3]).

Tak jako v předcházejícím případě je možné i zobecnění použitím k nejvzdálenějších vektorů z obou shluků, pak platí

(63)

Příklad 7.4

Předpokládejme stejné zadání jako v příkladu 7.2, tj. že na vstup shlukovacího algoritmu přivedeme vektory x₁ = (0, 0), x₂ = (10, 10), x₃ = (8, 8), x₄ = (6, 7), x₅ = (4, 3) a x₆ = (3, 2) v uvedeném pořadí. Vzdálenost mezi dvěma vektory bude určována pomocí Hammingovy metriky a rozhodnutí, zda vektory patří do téhož shluku, bude rovněž záviset na prahové hodnotě d_mez = 7. Změnou nechť je, že vzdálenost mezi vektorem a shlukem budeme určovat na základě metody nejvzdálenějšího souseda.

Řešení:

Zpracování prvních tří vektorů je zcela stejné jako v příkladu 7.2. V této fázi řešení proto znovu existují dvě množiny = {x₁} a = {x₂, x₃}.

Pro x₄ jsou vzdálenosti d(x₄,x₁) = 6 + 7 = 13 > d_mez, d(x₄,x₂) = 4 + 3 = 7 a d(x₄,x₃) = 2 + 1 = 3. Nejvzdálenější soused vektoru x₄z druhého shluku je proto vektor x₂, vzdálenost d(x₄,x₂) = d_mez, tedy x₄zařadíme ještě do druhého shluku, který už v tomto okamžiku zahrnuje vektory = {x₂, x₃, x₄}.

Pro vektor x₅ je vzdálenost od prvního shluku, představovaného pouze vektorem x₁, d(x₅,x₁) = 4 + 3 = 7 = d_mez. Vzdálenosti od řetězců druhého shluku jsou d(x₅,x₂) = 6 + 7 = 13, d(x₅,x₃) = 4 + 5 = 9 a d(x₅,x₄) = 2 + 4 = 6. Podle kritéria nejvzdálenějšího souseda určuje vzdálenost vektoru x₅ od shluku = {x₂, x₃, x₄} vzdálenost d(x₅,x₂) = 6 + 7 = 13 d_mez. Zařadíme jej proto k vektoru x₁ do prvního shluku = {x₁, x₅}.

Konečně pro poslední vektor x₆ jsou vzdálenosti od vektorů prvního shluku d(x₆,x₁) = 3 + 2 = 5 a d(x₆,x₅) = 1 + 1 = 2. Obě vzdálenosti jsou menší než limitní hodnota d_mez a větší z nich je d(x₆,x₁). Nejvzdálenější soused z druhého shluku je vektor x₂, pro který je d(x₆,x₂) = 7 + 8 = 15 d_mez. Vektor x₆ tedy opět zahrneme do shluku a je = {x₁, x₅, x₆}.

Ve srovnání s výsledkem příkladu 7.2 jsou shluky = {x₁, x₅, x₆} a = {x₂, x₃, x₄} o poznání kompaktnější.

Příklad 7.5

Co by se stalo, pokud bychom v zadání příkladu použili mezní hodnotu d_mez = 6?

Řešení:

Zadané vektory by se rozdělily do tří shluků = {x₁, x₆}, = {x₂, x₃} a = {x₄, x₅}.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity