Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Pokročilejší metody extrakce proměnných Analýza nezávislých komponent (ICA) Úvod do analýzy nezávislých komponent

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Úvod do analýzy nezávislých komponent

Analýza nezávislých komponent (ICA – Independent Component Analysis) je podobně jako analýza hlavních komponent postup, který umožňuje v původních datech odhalit skryté veličiny, které nelze přímo měřit, ovšem mohou být určitým způsobem věcně interpretovány. Zatímco analýza hlavních komponent hledá pomocí lineární transformace nové proměnné, které nejlépe reprezentují data z hlediska střední kvadratické chyby, metoda analýzy nezávislých komponent používá k lineární separaci jednotlivých složek kritérium statistické nezávislosti. Na rozdíl od analýzy hlavních komponent není primárním cílem analýzy nezávislých komponent redukce počtu popisných proměnných, ve svém důsledku, tj. po odhalení nezávislých skrytých zdrojů dat, však i ICA může vést ke snížení rozměru dat. Dalším rozdílem obou metod je rovněž skutečnost, že zatímco metoda hlavních komponent může najít uplatnění při zpracování statických i dynamických, doménou analýzy nezávislých komponent je více zpracování dynamických dat, tj. časových řad. Nicméně, není to jediné možné využití.

Nyní si vysvětlíme princip analýzy nezávislých komponent pomocí příkladu. Předpokládejme, že v daném prostoru jsou dva nezávislé zdroje znečištění (Obr. 1). Označme veličiny, které je charakterizují, jako a . Dále předpokládejme, že celková úroveň znečištění je měřena přinejmenším stejným počtem měřicích přístrojů, jejichž výstupy označme a . V případě, že zanedbáme možné prostorové vlivy (např. dobu šíření znečištění od zdroje k měřícímu zařízení) a nelinearity, můžeme si naměřené veličiny vyjádřit pomocí vztahů

(1)

kde parametry popisují přenosové vlastnosti prostředí, jímž se znečištění šíří, směrové charakteristiky, apod. Proměnné nazýváme skryté, nebo latentní proměnné a hodnoty x_i reprezentují pozorované veličiny, které tvoří vektor pozorování. Cílem analýzy je ze známých hodnot a určit hodnoty proměnných a . Pokud bychom znali hodnoty transformačních koeficientů , pak by řešení uvedené úlohy bylo v podstatě triviální. Avšak problém je, že tyto hodnoty dopředu neznáme. Znamená to, že výsledkem výpočtů vycházejících ze znalosti hodnot pozorovaných veličin musí být určení hodnot latentních veličin, ale i hodnot transformačních koeficientů. Takové řešení může vypadat jako naprosto nerealizovatelné. Bez jakýchkoliv dalších podmínek by se taková úloha opravdu řešit nedala. Zabývejme se tedy podmínkami, za kterých dokážeme řešení nalézt.

Obr. 1: Ilustrace analýzy nezávislých komponent

Pokusme se nyní výše uvedené jednoduché konkrétní zadání úlohy formulovat obecněji. Tedy předpokládejme, že máme k dispozici p-rozměrný náhodný vektor , jehož jednotlivé složky představují známá naměřená data. Nechť pro jednotlivé složky vektoru x platí

(2)

nebo také pomocí maticového zápisu

(3)

kde reprezentuje vektor původních (skrytých) zdrojových komponent a matice A je tzv. transformační matice. Hodnoty jejích prvků stejně jako hodnoty jednotlivých složek vektoru s primárně neznáme. Platí-li předpoklad, vyjádřený vztahy (2), resp. (3), můžeme také psát

(4)

což je ten vztah, který umožňuje ze známých hodnot vektoru určit neznámé složky vektoru latentních proměnných. Má-li být tento výpočet realizovatelný, musíme znát hodnoty prvků matice W, resp. A.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity