Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Pokročilejší metody extrakce proměnných Analýza nezávislých komponent (ICA) Výpočetní strategie analýzy nezávislých komponent

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Výpočetní strategie analýzy nezávislých komponent

Pomocí lineární transformace nemůže dojít k navýšení počtu proměnných, tzn. z naměřených veličin nemůžeme určit více než zdrojů. Proto, chceme-li odhadnout zdrojových proměnných, musíme mít k dispozici nejméně pozorovaných veličin. Budou-li obě matice čtvercové o řádu (lepší situace pro výpočet inverzní matice) a bude-li existovat pouze zdrojů, pak přiměřeně správný lineární algoritmus nalezne v pozorovaných veličinách právě zdrojových proměnných a dalších bude buď nulových, nebo budou obsahovat šumovou složku. Je proto vhodné navrhnout měřicí experiment tak, aby byl počet pozorovaných veličin buď právě roven počtu zdrojů, nebo případně jen o něco málo větší. Přesto, že výpočetně příjemnější je, když jsou obě matice koeficientů čtvercové, je teoreticky možné v případě, že je naměřených pozorovaných veličin více než zdrojových, aby byly matice koeficientů obdélníkové, v případě matice A o rozměru , .

Dalším formálním požadavkem, který významně zjednodušuje teoretické zdůvodnění výpočetního postupu i jeho realizaci, je předpoklad o nulové střední hodnotě jak pozorovaných, tak i zdrojových veličin. Pokud tomu tak při řešení praktických úloh není, lze teoretický nedostatek snadno napravit centrováním dat. Je ovšem potřeba si opět uvědomit, že centrováním data přichází o určitou informaci, které se může při následném zpracování nedostávat.

Vzhledem k tomu, jak je úloha zadána, nelze očekávat, že existuje pouze jedno její řešení, nýbrž že bude třeba volit z nekonečně mnoha možných řešení takové, které nejlépe splní určité, vhodně zvolené kritérium optimality. Protože navíc neznáme ani hodnoty skrytých proměnných, je třeba, abychom omezili prostor možných řešení tak, že budeme alespoň předpokládat nějaké jejich určité vlastnosti, které usnadní nalezení řešení.

Zásadním požadavkem na vlastnosti zdrojů a tím i latentních veličin, který dal i název algoritmu, je požadavek na jejich statistickou nezávislost. To značí, že hodnota žádné z latentních veličin neposkytuje informaci o hodnotách dalších latentních veličin. V případě vzájemné statistické nezávislosti náhodných veličin platí

(5)

kde je sdružená funkce rozložení hustoty pravděpodobnosti a jsou marginální funkce rozložení hustoty pravděpodobnosti.

Pro nezávislé náhodné veličiny s určitými pravděpodobnostními rozděleními říká centrální limitní věta, že jejich součet konverguje za poměrně obecných podmínek s rostoucím počtem náhodných veličin ke Gaussovu normálnímu rozdělení bez ohledu na to, jaké je rozdělení jednotlivých náhodných veličin. Dle zadání metody nezávislých komponent jsou pozorované veličiny dány váhovaným součtem latentních proměnných. Z toho plyne, že jednotlivé pozorované veličiny x_i budou mít rozdělení o něco normálnější, než jsou rozdělení jednotlivých zdrojových komponent. Na této skutečnosti je pak založena kriteriální funkce pro optimalizační výpočet zdrojových veličin, která předpokládá, že podle (4) pro jednotlivé zdrojové veličiny platí . Tedy hledáme koeficienty transformační matice W takové, aby pravděpodobnostní rozdělení vypočítaných zdrojových veličin bylo co nejméně normální. Aby tato myšlenka byla realizovatelná, může mít normální rozdělení maximálně jedna skrytá náhodná veličina, ostatní musí mít jiné než normální rozdělení. V současné době již existují i jiná kritéria, jak určit nezávislé nebo alespoň co nejméně závislé zdrojové veličiny, v následujícím textu se ale budeme zabývat jen tímto základním principem, založeným na centrální limitní větě.

Máme-li formalizovat výpočet kriteriální funkce, musíme toto uvedené kritérium vyjádřit matematicky. Nejčastěji používané míry statistické nenormality v analýze nezávislých komponent jsou:

koeficient špičatosti;
negativní entropie.

Zabývejme se nyní jednotlivými mírami.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity