Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Ordinační analýzy Korespondenční analýza Výpočetní algoritmus

Logo Matematická biologie

Výpočetní algoritmus

Výpočet korespondenční analýzy má dvě nejběžnější řešení. Oba přístupy se v korespondenční analýze používají v různých oborech ponejvíce z historických a interpretačních důvodů. Prvnímu přístupu, ve kterém jde podobně jako u analýzy hlavních komponent o vlastní analýzu, a tedy o hledání vlastních hodnot a vlastních vektorů matice, se budeme podrobně věnovat v následujícím textu. Druhý přístup je iterativní a je rozšířením metody váženého průměrování. Setkáváme se s ním často zejména v ekologických oborech pod označením reciproké průměrování nebo vážené průměrování. Viz. níže poznámku.

 


 Poznámka: Metoda váženého průměrování obsahuje proces opakované křížové kalibrace mezi skóre řádků a sloupců, jehož výsledkem je společná ordinace řádků i sloupců kontingenční tabulky. Skóre řádků jsou váženými průměry skóre sloupců a skóre sloupců jsou váženými průměry skóre řádků. Souřadnice řádků a sloupců jsou odvozeny tak, aby byla maximalizována korelace mezi souřadnicemi řádků a sloupců.

Výpočet začíná náhodně zvolenými čísly přiřazenými k řádkovým kategoriím . Výsledek není ovlivněn volbou počátečních hodnot, je možné zvolit libovolné nenulové číslo, pro každou kategorii však odlišné. Tyto hodnoty můžeme označit jako počáteční skóre řádkových kategorií (row scores). Další kroky výpočtu jsou:

  1. Výpočet skóre sloupcových kategorií (column scores) jako vážené průměry skóre řádků, přičemž váhami jsou četnosti .
  1. Restandardizace skóre sloupcových kategorií. V tomto kroku je možné použít libovolné lineární přeškálování, např. převedení na škálu od 1 do 100. Toto zajišťuje, aby se rozpětí hodnot při iterativním procesu nezmenšovalo.
  1. Výpočet nových skóre řádkových kategorií jako vážené průměry ze skóre sloupcových kategorií. I zde platí, že váhy sloupců jsou jejich početnosti.
  1. Restandardizace skóre řádkových kategorií.

Algoritmus pokračuje opakováním kroků 1 až 4, tj. recipročním průměrováním a restandardizací skóre řádků a sloupců, dokud mezi dvěma iteracemi již nedojde k žádné zjevné změně ve skóre sloupců a řádků. Při procesu váženého průměrování platí, že výpočet konverguje ke stejnému výsledku bez ohledu na zvolené počáteční hodnoty. Výsledkem jsou skóre, tedy souřadnice všech řádkových a sloupcových kategorií na první ose korespondenční analýzy.

Výpočet druhé a dalších os je složitější, ovšem principiálně stejný jako je uvedeno výše. Algoritmus výpočtu druhé osy je doplněný o krok, který zajistí lineární nezávislost první a druhé osy, podobně je výpočet třetí osy doplněný o krok zajišťující její lineární nezávislost s prvními dvěma osami atd.



Výpočetní algoritmus korespondenční analýzy je podobný výpočtu analýzy hlavních komponent s jedním důležitým rozdílem. U analýzy hlavních komponent představují vlastní hodnoty vysvětlený rozptyl příslušnou komponentou. V případě korespondenční analýzy vlastní hodnoty extrahují tzv. inerci, neboli vztah mezi sloupcovými a řádkovými kategoriemi. Rozdílem oproti analýze hlavních komponent je, že k získání vlastních čísel datové matice se používá rozklad na singulární hodnoty. Výpočtu vlastních hodnot a vlastních vektorů předchází několik kroků.

Nejdříve je původní datová matice převedena na příspěvek standardizovaných reziduí, která získáme podle vzorce

(12)

kde matice a pocházejí z původní datové matice a matice a jsou diagonální matice, s prvky vektoru , resp. na diagonále. Tedy prvky matice nabývají hodnot podle vzorce

(13)

Souřadnice nehledáme podle původních řádkových a sloupcových profilů, ale na základě matice reziduí, kterou můžeme chápat jako matici standardizovaných odchylek od nezávislosti kategorií.
Rozklad matice na singulární hodnoty je následující:

(14)

kde matice je typu  a její sloupce jsou tvořeny levými zobecněnými singulárními vektory. Matice je typu a je složena ze sloupců tvořených z pravých zobecněných singulárních vektorů. Matice je diagonální matice typu a její diagonála je tvořena singulárními hodnotami. Pro matice a platí vztah .

Vektory matice jsou rovny normalizovaným vlastním (charakteristickým) vektorům matice , a vektory matice jsou rovny normalizovaným vektorům matice . Čtverce singulárních hodnot uvedených v matici jsou rovny vlastním číslům matice , resp. . Pro singulární hodnoty (a tedy taky pro vlastní čísla) platí, že jsou uspořádány sestupně podle velikosti. Z uvedeného je zřejmá důležitost pořadí ordinačních os v korespondenční analýze. Počet vlastních vektorů a vlastních čísel (tj. počet ordinačních os) je minimum z počtu řádků a počtu sloupců korespondenční tabulky snížené o jedničku.

V dalším kroku definujeme výpočet souřadnic bodů, které zobrazují řádkové a sloupcové kategorie původní datové matice. Před výpočtem souřadnic jednotlivých kategorií je nutné určit způsob, jakým budou zobrazeny body v korespondenční mapě. Zpravidla se rozhodujeme podle požadavků úlohy. Když nás zajímají zejména vztahy mezi řádkovými kategoriemi, volíme metodu pro analýzu řádkových profilů. Pokud sledujeme vztahy mezi sloupcovými kategoriemi, volíme metodu pro analýzu sloupcových profilů. Ve většině úloh vzájemně srovnáváme řádkové i sloupcové kategorie, a tak volíme metodu tzv. symetrické normalizace. Volba typu normalizace neovlivní velikost singulárních hodnot, dochází pouze ke změně variability souřadnic.

Pokud sledujeme vztahy mezi řádky a provádíme analýzu řádkových profilů, jsou euklidovské vzdálenosti bodů v korespondenční mapě aproximací chí-kvadrát vzdálenosti řádkových profilů v korespondenční tabulce. Souřadnice sloupcových kategorií jsou normovány tak, aby byl součet čtvercových vzdáleností od centroidu roven jedné.

Souřadnice řádkových bodů v korespondenční mapě jsou v matici , kterou vypočteme podle vztahu

(15)

Souřadnice sloupcových kategorií v téže mapě jsou v matici , kterou získáme podle vztahu

(16)

Pokud nás zajímají vztahy mezi sloupcovými kategoriemi, analogicky získáme souřadnice pro sloupcové kategorie z matice

(17)

a pro řádkové kategorie z matice

(18)

Další možnost je zobrazení řádkových a sloupcových kategorií v jednom grafu, kde souřadnice řádků ani sloupců nejsou váženými průměry druhé kategorie. Každá z kategorií pochází pak z jiného prostoru. Souřadnice řádkových kategorií získáme podle vztahu:

(19)

Matici souřadnic sloupcových kategorií získáme ze vztahu:

(20)

 

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity