Základní pojmy u korespondenční analýzy
Mějme matici typu x odpovídající kontingenční tabulce dvou kategoriálních proměnných, přičemž a , kde a je počet kategorií u první respektive druhé proměnné, celkový počet a okrajové četnosti a .
Matice se nazývá korespondenční matice a vypočteme ji podílem matice a celkového počtu pozorování . Jednotlivé prvky matice získáme jak
|
(1) |
Řádkové zátěže vypočteme podílem okrajových četností celkovým počtem
|
(2) |
a -členný vektor řádkových zátěží označíme .
Sloupcové zátěže vypočteme podílem okrajových četností celkovým počtem
|
(3) |
a -členný vektor sloupcových zátěží pak označíme .
Řádkové profily odpovídají podílu četností a okrajových četností , jde tedy o podmíněné relativní četnosti
|
(4) |
Matici řádkových profilů definujeme jako
|
(5) |
kde je diagonální matice s prvky vektoru na diagonále.
Sloupcové profily vypočteme jako podíl a
|
(6) |
Matici sloupcových profilů vypočteme jako
(7) |
kde je diagonální matice s prvky vektoru na diagonále.
Korespondenční matici můžeme vyjádřit následovně:
(8) |
Zopakujme, že korespondenční analýza sleduje vztahy mezi řádky a sloupci kontingenční tabulky. V případě nezávislosti znaků v kontingenční tabulce platí shoda všech řádkových profilů a jejich rovnost s vektorem sloupcových zátěží. Podobně platí shoda všech sloupcových profilů a jejich rovnost s vektorem řádkových zátěží. Z uvedeného plynou další důležité vztahy v korespondenční tabulce. Vektor řádkových zátěží je ekvivalentní váženému součtu sloupcových profilů , s vahami okrajových relativních četností .
(9) |
Podobně vektor sloupcových zátěží je roven váženému součtu vektorů řádkových profilů s vahami .
(10) |