Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Podobnosti a vzdálenosti ve vícerozměrném prostoru Metriky pro určení vzdálenosti mezi dvěma množinami vektorů Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Metoda nejbližšího souseda

Je-li D libovolná metrika vzdálenosti dvou vektorů a a jsou libovolné množiny vektorů {x_i}, i = 1, …, K, potom metoda nejbližšího souseda definuje vzdálenost mezi množinami a

(60)

tedy vzdálenost mezi množinami je dána jako minimální vzdálenost mezi všemi možnými zástupci shluků (Obr. 4). To znamená, že v daných množinách nás zajímají pouze ty dva objekty, které jsou k sobě nejblíže.

Obr. 4: Vzdálenost dvou množin u metody nejbližšího souseda (podle [3]).

Při použití tohoto způsobu výpočtu vzdálenosti se mohou vyskytovat v jedné množině často i poměrně vzdálené vektory, pokud se mezi nimi vyskytují vektory další. To znamená, že metoda nejbližšího souseda může vytvářet klasifikační třídy protáhlého tvaru.

Příklad 7.1

Předpokládejme, že jsou zadány tři vzorové vektory x₁ = (0, 0), x₂ = (8, 8) a x’₂ = (10, 10), které představují dvě klasifikační třídy. Rozhodněte, do které klasifikační třídy se zařadí vektor x = (5, 4). Pro výpočet vzdálenosti mezi dvěma vektory použijte Hammingovu metriku, pro výpočet vzdálenosti od obou klasifikačních tříd použijte metodu nejbližšího souseda.

Řešení:

Hammingova metrika je definována vztahem

Podle něj jsou vzdálenosti d(x,x₁) = 5 + 4 = 9; d(x,x₂) = 3 + 4 = 7 a d(x,x’₂) = 5 + 6 = 11.

První třída obsahuje pouze jeden vektor, ten tím pádem zároveň představuje nejbližšího souseda ze třídy první. Druhá třída obsahuje dva vektory, z nichž bližší vektoru x je vektor x₂ (to je nejbližší soused ze třídy druhé). Protože klasifikace podle minimální vzdálenosti zařazuje vektor do té množiny, jejíž nejbližší soused má od vektoru nejmenší vzdálenost, zařadíme vektor x do druhé třídy.

Příklad 7.2

Předpokládejme, že na vstup shlukovacího algoritmu přicházejí objekty, které jsou dány vektory x₁ = (0, 0), x₂ = (10, 10), x₃ = (8, 8), x₄ = (6, 7), x₅ = (4, 3) a x₆ = (3, 2) v uvedeném pořadí. Proveďte shlukování daných objektů, přičemž vzdálenost mezi dvěma vektory určete podle Hammingovy metriky. Rozhodnutí, zda vektory patří do téhož shluku, bude záviset na prahové hodnotě d_mez = 7. Vzdálenost mezi vektorem a shlukem určete na základě metody nejbližšího souseda.

Řešení:

První vektor x₁ = (0, 0) je považován za představitele prvního shluku. Druhý vektor x₂ = (10, 10) má od vektoru x₁ vzdálenost d(x₁,x₂) = 10 + 10 = 20. To je vzdálenost větší než zadané d_mez. Budeme jej proto považovat za představitele druhého shluku.

Vzdálenosti vektoru x₃ od obou shluků reprezentovaných vektory x₁ a x₂ jsou d(x₃,x₁) = 8 + 8 = 16 a d(x₃,x₂) = 2 + 2 = 4. Vzdálenost d(x₃, x₂) je menší z obou a současně je i menší než d_mez, bude proto vektor x₃zařazen do druhého shluku.

Pro x₄ jsou vzdálenosti d(x₄,x₁) = 6 + 7 = 13 d_mez, d(x₄,x₂) = 4 + 3 = 7 a d(x₄,x₃) = 2 + 1 = 3. Nejbližší soused vektoru x₄z druhého shluku je proto vektor x₃, vzdálenost d(x₄,x₃) d_mez, tedy x₄zařadíme rovněž do druhého shluku, který už v tomto okamžiku zahrnuje vektory C ₂ = {x₂, x₃, x₄}.

Ekvivalentně postupujeme i v případě vektoru x₅. Pro vektor x₆ je vzdálenost od prvního shluku daná d(x₆,x₁) = 3 + 2 = 5 d_mez a nejbližší soused z druhého shluku je vektor x₅, pro který je d(x₆,x₅) = 1 + 1 = 2 d_mez. Obě vzdálenosti jsou menší než d_mez, je ale d(x₆,x₁) d(x₆,x₅), proto vektor x₆ zařadíme opět do druhého shluku.

Po zpracování všech vektorů jsou vytvořeny dva shluky = {x₁} a = {x₂, x₃, x₄, x₅, x₆}. Jak je zřejmé, shluk vytváří velice protáhlou strukturu.

Příklad 7.3

Předpokládejme totéž zadání jako v příkladu 7.2, pouze zpracování vektorů x₅ a x₆ proběhne v opačném pořadí.

Skryté řešení:

Vzhledem v podstatě k témuž zadání jako v příkladu 7.2, bude řešení až po zpracování řetězců x₅ a x₆ stejné.

Pro dříve zpracovávaný vektor x₆ je d(x₆,x₁) = 3 + 2 = 5 d_mez a nejbližší soused z druhého shluku je v tomto případě x₄, pro který platí d(x₆,x₄) = 3 + 5 = 8 d_mez. Vektor x₆ proto tentokrát zařadíme do prvního shluku.

Konečně, pro poslední vektor x₅ je nejbližší soused z prvního shluku vektor x₆, pro který je d(x₅,x₆) = 1 + 1 = 2 d_mez a z druhého shluku je nejbližší soused opět vektor x₄, pro který je d(x₅,x₄) = 2 + 4 = 6 d_mez. Protože d(x₅,x₆) d(x₅,x₄), je vektor x₅ zařazen do prvního shluku.

Po zpracování všech vektorů jsou s tímto pořadím zpracování posledních dvou vektorů vytvořeny dva shluky = {x₁, x₅, x₆} a = {x₂, x₃, x₄}.

Z čehož vyplývá, že výsledky shlukování může významně ovlivnit pořadí zpracování vektorů.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity