Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Vícerozměrná rozdělení pravděpodobnosti Vícerozměrná rozdělení pravděpodobnosti Vícerozměrné normální rozdělení

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Vícerozměrné normální rozdělení

Použitelnost a také interpretovatelnost mnohých metod a postupů je závislá na splnění předpokladu normálního rozdělení sledovaných proměnných. Pokud je předpoklad splněný, metody založené na tomto předpokladu mohou využít kompletní matematický aparát schovaný za danou statistickou metodou, což je velmi výhodné. Tyto metody jsou také relativně snadno pochopitelné a se získanými řešeními se dobře pracuje. Ovšem v reálném světě bývá často obtížné předpoklad o normálním rozdělení dodržet, drobné odchylky od vícerozměrné normality však nejsou problémem.

Ověřením vícerozměrné normality se budeme zabývat podrobněji v následující kapitole, nyní se proto věnujme samotnému vícerozměrnému rozdělení. Vyjděme z jednorozměrného normálního rozdělení, jehož hustota má tvar

(6)

kde μ je střední hodnota proměnné x a σ² je její rozptyl. V exponentu je čtverec vzdálenosti , tedy vzdálenosti x od střední hodnoty μ, kde jednotkou vzdálenosti je směrodatná odchylka σ.

Vícerozměrné normální rozdělení je rozšířením jednorozměrného normálního rozdělení pro více než jednu proměnnou (p ≥ 2). Náhodný vektor x má vícerozměrné normální rozdělení, má-li jeho hustota pravděpodobnosti tvar

(7)

kde je vektor p středních hodnot (vektor výběrových průměrů) proměnných a je kovarianční matice proměnných.

Pro vícerozměrné normální rozdělení můžeme chápat kvadratickou formu v exponentu jako čtverec vzdálenosti vektoru x od vektoru μ, ve kterém je obsažena informace z kovarianční matice:

(8)

Ve skutečnosti jde o tzv. Mahalanobisovu vzdálenost vektoru x od vektoru μ, jež bude podrobněji popsána v kapitole věnované metrikám pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic , přičemž má chí-kvadrát rozdělení s p stupni volnosti, tedy . Geometricky se jedná o povrch elipsoidu (ve dvourozměrném případě elipsu) se středem μ a osami , j = 1, 2, … p, kde jsou vlastní čísla a v_j vlastní vektory matice Σ.

Speciálním případem vícerozměrného normálního rozdělení je dvourozměrné normální rozdělení (tedy pro p = 2). Mějme dvě proměnné x₁ a x₂ se středními hodnotami μ₁ a μ₂, rozptyly , a kovariancí σ₁₂. Vektor středních hodnot je tedy μ=(μ₁,μ₂)^T a kovarianční matice . Hustotu dvourozměrného normálního rozdělení pak můžeme vyjádřit ve tvaru

(9)

kde ρ je korelační koeficient definovaný jako . Determinant kovarianční matice Σ lze pak vyjádřit jako , přičemž tento determinant je roven nule, když ρ = 1. Pro dvourozměrné normální rozdělení můžeme hustotu rozdělení a elipsy konstantní hustoty znázornit graficky (Obr. 1).

Obr. 1: Hustota dvourozměrného normálního rozdělení a elipsy konstantní hustoty pro: A) nekorelované proměnné x₁ a x₂, přičemž μ₁ = μ₂ = 0, σ₁ = σ₂ =1, ρ= 0; B) korelované proměnné x₁ a x₂, přičemž μ₁ = μ₂ = 0, σ₁ = σ₂ =1, ρ= 0,5.

Na závěr si uveďme vlastnosti vícerozměrného normálního rozdělení:

lineární kombinace složek vektoru x mají normální rozdělení;
všechny podmnožiny x mají normální rozdělení;
nekorelovanost náhodných proměnných z x znamená jejich nezávislost;
všechna podmíněná rozdělení jsou normální.

Tyto vlastnosti se využívají při odvozování mnoha metod pro analýzu vícerozměrných dat.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity