Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Vztah ordinačních prostorů Co-inertia Detailní postup výpočtu koinerční analýzy

Logo Matematická biologie

Detailní postup výpočtu koinerční analýzy

Nejprve vypočteme kovarianční matici  rozměru prokřížením dvou prostorů daných datovými maticemi a , které jsou před výpočtem centrovány, čímž vzniknou matice  a se sloupcovými průměry rovny 0. Kovarianční matici tedy spočítáme jako

(1)

Následuje výpočet vlastních čísel a vlastních vektorů matice , přičemž využijeme rozklad matice na singulární hodnoty:

(2)

kde je matice rozměru , U je matice rozměru a je diagonální matice rozměru , jejíž diagonální prvky jsou singulární hodnoty. Vlastní čísla kovarianční matice , jejichž součet dává celkovou koinerci, získáme umocněním singulárních hodnot z matice . Tedy matice vlastních čísel  je dána jako

(3)

Vlastní vektory získáme přímo z matic a , protože je matice vlastních vektorů z  a je matice vlastních vektorů z . Počet koinerčních os je roven počtu vlastních čísel, které jsou větší než 0, přičemž .

Cílem CoIA je projekce objektů a proměnných dvou datových souborů v jednom společném vícerozměrném prostoru a srovnání jejich pozic. To se děje následovně:

  • Pro získání pozice objektu z datové matice ve společném prostoru se nejprve spočítá , následně je každý sloupec  normalizován na délku 1 a nakonec je sloupec násoben  a . Důsledkem toho má k-tý sloupec z  rozptyl , což zachovává Euklidovu vzdálenost mezi objekty. Pro druhý datový soubor se postupuje obdobně: spočítá se a pak se sloupce normalizují a násobí a . Normalizované a  jsou použity ke konstrukci jednoduchého grafu, který zobrazuje dvě sady bodů – pro lepší přehlednost se přidávají šipky, které vedou od každého objektu v  k jeho zobrazení v . Objekty, které mají velmi blízké pozice v grafu (krátké šipky), přispívají ke koinercii (celkové podobnosti) mezi datovými soubory více než objekty, které jsou spojeny dlouhou šipkou. Pro vykreslení grafu lze také použít normalizované matice a  na rozptyl 1 a zachováme tak Mahalanobisovu vzdálenost mezi objekty ve spojovacím grafu.
  • Projekce proměnných původních matic a na koinerční osy, které se vykreslují jako vektory začínající v počátku souřadného systému. Jejich koordináty jsou dány maticí  pro proměnné z a maticí pro proměnné z . Tato vizualizace nám umožňuje zjistit, s jakými původními proměnnými nejvíce souvisí nově získané koinerční osy.

Pro CoIA lze získat celkovou hodnotu statistiky, kterou představuje hodnota RV koeficientu, jenž je vícerozměrným zobecněním klasického Pearsonova korelačního koeficientu. Pro dva vektory  a se RV koeficient spočítá jako . Pro dvě obdélníkové matice s odpovídajícími objekty jako řádky, centrované na sloupcový průměr nula je RV koeficient počítán podle následující formule:

(4)

RV koeficient lze také spočítat z matic podle následujícího vzorce

(5)

kde značení  znamená, že každý element matice  je před výpočtem sumy umocněn. Statistická významnost RV koeficientu je testována pomocí permutací stejně jako u Mantelova testu.  Nulová hypotéza v tomto případě zní: dva datové soubory spolu nesouvisejí více, než by mohly spolu souviset dva náhodné datové soubory. Tedy jedná se o stejný typ nulové hypotézy jako u korelační analýzy.

 

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity