Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Podobnosti a vzdálenosti ve vícerozměrném prostoru Metriky pro určení vzdálenosti mezi dvěma množinami vektorů Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostní charakteristiky

Skupiny objektů či subjektů (tzn. množiny vektorů se společnými charakteristikami) nemusí být definovány jen výčtem vektorů, nýbrž vymezením obecnějších vlastností, jak je zmiňováno v kapitole o klasifikaci – tedy například definicí hranic oddělujících část vektorového prostoru, která náleží dané klasifikační třídě, diskriminační funkcí, pravděpodobnostními charakteristikami výskytu vektorů v dané třídě, atd. Jestliže jsme v předchozí kapitole využívali znalosti vlastností dané množiny, které byly určeny polohou jednotlivých konkrétních vektorů patřících do té které množiny, dále popíšeme způsoby stanovení vzdálenosti mezi množinami, které používají pravděpodobnostní charakteristiky rozložení vektorů v dané množině.

Pokud si na metriky klademe určité požadavky, i metriky pro stanovení vzdálenosti dvou množin, pro něž využíváme rozložení pravděpodobnosti výskytu vektorů, by měly vyhovovat standardním požadavkům. Tyto metriky splňují následující vlastnosti (protože jejich výpočet je založen na poněkud jiném přístupu a protože i dále uvedené vlastnosti nesplňují vždy vše, co od metrik očekáváme, bývá zvykem je značit jiným písmenem, zpravidla J):

1. J = 0, pokud jsou hustoty pravděpodobnosti obou množin identické, tj. když

2. ;

3. J nabývá maxima, pokud jsou obě množiny disjunktní, tj. když

(Jak vidíme, není mezi vlastnostmi pravděpodobnostních metrik uvedena trojúhelníková nerovnost, jejíž splnění by se zajišťovalo vskutku jen velmi obtížně.)

Ilustrace jednotlivých vlastností pravděpodobnostních metrik je uvedena na Obr. 10:

Obr. 10: Ilustrace vlastností pravděpodobnostních množin: A. J = 0 (hustoty jsou identické, tzn. zcela se překrývají); B. J ≥ 0 (hustoty se částečně překrývají); C. J nabývá maxima (hustoty jsou disjunktní, tzn. se vůbec nepřekrývají).

Základní myšlenkou, na které jsou pravděpodobnostní metriky založeny, je podobně, jak je popsáno pro Bayesovský klasifikátor, využití pravděpodobnosti způsobené chyby. Čím více se hustoty pravděpodobnosti výskytu vektorů x v jednotlivých množinách překrývají, tím je větší pravděpodobnost chyby.

Pokusme se nyní tuto myšlenku zformalizovat. Pravděpodobnost chybného zařazení je rovna

(69)

Tento vztah je možné odvodit ze vztahů popsaných v kapitole o kritériu minimální střední ztráty u Bayesova klasifikátoru .

Pro dichotomický případ (R = 2) je celková pravděpodobnost chybného rozhodnutí určena vztahem

(70)

což lze podle Bayesova vzorce upravit i do tvaru

(71)

Integrál ve vztahu (14) nazýváme Kolmogorovova variační vzdálenost a jeho hodnota přímo souvisí s pravděpodobností chybného rozhodnutí. Ostatní dále uvedené pravděpodobnostní míry vzdálenosti, odvozené z obecné formule

(72)

už tuto přímou souvislost nemají, ale mohou být použity k určení mezí odhadu chyby.

Jednou z hlavních nevýhod pravděpodobnostních metrik je potřeba odhadnout průběh hustot pravděpodobnosti a poté je integrovat, což může způsobit problémy, které znemožní použití tohoto přístupu v mnoha různých aplikacích. Situace se výrazně zjednoduší, pokud lze předpokládat určitý charakter rozložení pravděpodobnosti použít analytický popis pravděpodobnostních charakteristik. V tom případě je možné provést mnohé výpočty analyticky. Praktické úlohy ale často na analytický popis potřebných pravděpodobnostních charakteristik nevedou, je potřeba využít empirický (neparametrický) popis např. histogramem. Za takových podmínek nezbývá, než se s výpočty vypořádat numericky.

Mezi nejpoužívanější míry pravděpodobnostní vzdálenosti dvou množin patří

Chernoffova metrika

(73)

Bhattacharyyova metrika

(74)

(Jak lze snadno rozpoznat, Bhattacharyyova metrika je speciální případ Chernoffovy metriky pro s = 0,5).

Divergence

(75)

Patrickova -Fisherova metrika

(76)

Alternativou mohou být jejich zprůměrněné verze, které zahrnují i apriorní pravděpodobnost jednotlivých množin:

zprůměrněná Chernoffova metrika

(77)

zprůměrněná Bhattacharyyova metrika

(78)

zprůměrněná divergence

(79)

zprůměrněná Patrickova -Fisherova metrika

(80)

Pro R množin byl odvozen vztah pro Bayesovu metriku

(81)

Hodnoty vzdálenosti určené podle tohoto předpisu se pohybují v intervalu . Jednotkové hodnoty nabývá v případě, že aposteriorní pravděpodobnost jedné množiny je rovna jedné, zatímco pro zbývající množiny jsou jejich aposteriorní pravděpodobnosti nulové. Nejmenší hodnoty, které Bayesova vzdálenost nabývá, je 1/R. To v případě, že jsou všechny aposteriorní pravděpodobnosti stejné. Když , pak se hodnota vzdálenosti limitně blíží k nule.

Uvedené vztahy se liší zejména pracností výpočtu a vazbou k hodnotám pravděpodobnosti chyby. Tato vazba je vyjádřena hodnotami dolního D(x) a horního H(x) odhadu pravděpodobnosti chyby, z nichž především horní odhad má praktický význam.

Pro některé z uvedených pravděpodobnostních měr jsou hodnoty horního odhadu

(82)

V případě, že známe dichotomické pravděpodobnostní míry a je třeba řešit problém klasifikace do více tříd, lze definovat metriku podle vztahu

(83)

V tom případě ale neplatí těsný vztah k hodnotě pravděpodobnosti chyby, jako ve výše uvedených vztazích.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity