Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Pokročilejší metody extrakce proměnných Analýza nezávislých komponent (ICA) Výpočetní strategie analýzy nezávislých komponent

Logo Matematická biologie

Výpočetní strategie analýzy nezávislých komponent

Pomocí lineární transformace nemůže dojít k navýšení počtu proměnných, tzn. z naměřených veličin nemůžeme určit více než zdrojů. Proto, chceme-li odhadnout zdrojových proměnných, musíme mít k dispozici nejméně pozorovaných veličin. Budou-li obě matice čtvercové o řádu (lepší situace pro výpočet inverzní matice) a bude-li existovat pouze zdrojů, pak přiměřeně správný lineární algoritmus nalezne v   pozorovaných veličinách právě zdrojových proměnných a dalších bude buď nulových, nebo budou obsahovat šumovou složku. Je proto vhodné navrhnout měřicí experiment tak, aby byl počet pozorovaných veličin buď právě roven počtu zdrojů, nebo případně jen o něco málo větší. Přesto, že výpočetně příjemnější je, když jsou obě matice koeficientů čtvercové, je teoreticky možné v případě, že je naměřených pozorovaných veličin více než zdrojových, aby byly matice koeficientů obdélníkové, v případě matice A o rozměru .

Dalším formálním požadavkem, který významně zjednodušuje teoretické zdůvodnění výpočetního postupu i jeho realizaci, je předpoklad o nulové střední hodnotě jak pozorovaných, tak i zdrojových veličin. Pokud tomu tak při řešení praktických úloh není, lze teoretický nedostatek snadno napravit centrováním dat. Je ovšem potřeba si opět uvědomit, že centrováním data přichází o určitou informaci, které se může při následném zpracování nedostávat.

Vzhledem k tomu, jak je úloha zadána, nelze očekávat, že existuje pouze jedno její řešení, nýbrž že bude třeba volit z nekonečně mnoha možných řešení takové, které nejlépe splní určité, vhodně zvolené kritérium optimality. Protože navíc neznáme ani hodnoty skrytých proměnných, je třeba, abychom omezili prostor možných řešení tak, že budeme alespoň předpokládat nějaké jejich určité vlastnosti, které usnadní nalezení řešení.

Zásadním požadavkem na vlastnosti zdrojů a tím i latentních veličin, který dal i název algoritmu, je požadavek na jejich statistickou nezávislost. To značí, že hodnota žádné z latentních veličin neposkytuje informaci o hodnotách dalších latentních veličin. V případě vzájemné statistické nezávislosti náhodných veličin platí

(5)

kde je sdružená funkce rozložení hustoty pravděpodobnosti a  jsou marginální funkce rozložení hustoty pravděpodobnosti.

Pro nezávislé náhodné veličiny s určitými pravděpodobnostními rozděleními říká centrální limitní věta, že jejich součet konverguje za poměrně obecných podmínek s rostoucím počtem náhodných veličin ke Gaussovu normálnímu rozdělení bez ohledu na to, jaké je rozdělení jednotlivých náhodných veličin. Dle zadání metody nezávislých komponent jsou pozorované veličiny dány váhovaným součtem latentních proměnných. Z toho plyne, že jednotlivé pozorované veličiny xi budou mít rozdělení o něco normálnější, než jsou rozdělení jednotlivých zdrojových komponent. Na této skutečnosti je pak založena kriteriální funkce pro optimalizační výpočet zdrojových veličin, která předpokládá, že podle (4) pro jednotlivé zdrojové veličiny platí . Tedy hledáme koeficienty transformační matice W takové, aby pravděpodobnostní rozdělení vypočítaných zdrojových veličin bylo co nejméně normální. Aby tato myšlenka byla realizovatelná, může mít normální rozdělení maximálně jedna skrytá náhodná veličina, ostatní musí mít jiné než normální rozdělení. V současné době již existují i jiná kritéria, jak určit nezávislé nebo alespoň co nejméně závislé zdrojové veličiny, v následujícím textu se ale budeme zabývat jen tímto základním principem, založeným na centrální limitní větě.

Máme-li formalizovat výpočet kriteriální funkce, musíme toto uvedené kritérium vyjádřit matematicky. Nejčastěji používané míry statistické nenormality v analýze nezávislých komponent jsou:

  • koeficient špičatosti;
  • negativní entropie.

Zabývejme se nyní jednotlivými mírami.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity