Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Ordinační analýzy Analýza hlavních komponent (PCA) Odvození

Logo Matematická biologie

Odvození

Předpokládejme, že je dáno  -rozměrných (předpokládejme sloupcových) vektorů , . Nyní aproximujme každý vektor lineární kombinací ortonormálních vektorů . Tedy platí

(2)

Koeficienty lze považovat za velikost i-té souřadnice vektoru vyjádřeného v novém systému souřadnic s bází , , tj. platí

(3)

Volíme-li jako kritérium optimality zobrazení, jak jsme již předeslali, kritérium minimální střední kvadratické odchylky, pak musíme stanovit vztah pro určení kvadratické odchylky původního vektoru od jeho aproximace . Nechť je

(4)

Pak pomocí vztahů (2) a (3) je

(5)

Střední kvadratická odchylka pro všechny vektory , je

(6)

a je závislá na volbě ortonormálního bázového systému , který je třeba zvolit tak, aby odchylka byla minimální. Diskrétní konečný rozvoj podle vztahu (2) s bázovým systémem , optimálním podle kritéria minimální střední kvadratické odchylky nazýváme diskrétní Karhunenův - Loevův rozvoj.

Aby byla střední kvadratická odchylka definovaná vztahem (6) minimální, musí druhý člen na pravé straně uvedené rovnice nabývat maximální hodnoty (vzhledem k tomu, že první člen pravé strany uvedené rovnice je pro dané zadání úlohy konstantní). Je tedy nutné maximalizovat výraz

(7)

kde

(8)

je autokorelační matice řádu . Z jejích vlastností (symetrická, semidefinitní) vyplývá, že její vlastní čísla , jsou reálná, nezáporná a jim odpovídající vlastní vektory , jsou buď ortonormální, nebo je můžeme ortonormalizovat (v případě vícenásobných vlastních čísel).

Uspořádáme-li vlastní čísla sestupně podle velikosti, tj.

(9)

a podle tohoto seřazení očíslujeme i odpovídající vlastní vektory, pak lze dokázat, že výraz (8) dosahuje maxima, jestliže platí

,
(10)

a pro velikost maxima je

(11)

Pro minimální střední kvadratickou odchylku tedy platí

(12)

To znamená, že je rovna součtu těch vlastních čísel, jimž odpovídající vlastní vektory nebyly použity při aproximaci vektoru podle vztahu (2). Pro m = p je střední kvadratická odchylka nulová.

Je-li vhodnější vektory  před aproximací centrovat, vypočítáme střední hodnotu

 
(13)

a místo s vektorem počítáme s jeho centrovanou verzí  .

Postup výpočtu Karhunenova – Loevova rozvoje se nemění, ale místo autokorelační matice používáme matici kovarianční ve tvaru

(14)

Platí, že

(15)

Ortonormální systém je v tom případě roven vlastním vektorům kovarianční matice S(x).

Podobně v případě standardizovaných dat, tj. když jsou po odečtení střední hodnoty jednotlivé hodnoty proměnných ještě poděleny patřičnou směrodatnou odchylkou, pak místo autokorelační matice dostáváme korelační matici (tzn. matici hodnot Pearsonova korelačního koeficientu), které popisují vzájemné korelační vztahy mezi jednotlivými proměnnými. Závěry a důsledky vyplývající z výpočtů vlastních čísel a vektorů takovéto matice zůstávají v principu zachovány, jen je třeba si uvědomit, že se opět mění charakter výchozích dat.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity