Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Ordinační analýzy Faktorová analýza Model faktorové analýzy

Logo Matematická biologie

Model faktorové analýzy

Předpokládejme, že  je jeden objekt popsaný pozorovanými proměnnými. Obecný model faktorové analýzy předpokládá, že existuje v pozadí stojících společných faktorů , kterých je méně než . Potom můžeme daný objekt zapsat jako lineární kombinaci společných faktorů následujícím způsobem

(1)

kde jsou společné faktory, které vyvolávají korelace mezi původními proměnnými. Tyto faktory mají nulovou střední hodnotu a jednotkový rozptyl. V modelu se dále vyskytují chybové složky , označované jako specifické faktory, které přispívají k rozptylu jednotlivých proměnných. Koeficienty  nazýváme faktorové váhy nebo zátěže (factor loadings) i-té proměnné na j-tém společném faktoru , . Jinak řečeno, faktorové zátěže  lze za předpokladu stejných měřících jednotek interpretovat jako příspěvek j-tého faktoru i-té vysvětlované proměnné. Faktorové zátěže tedy představují (při splnění určitých podmínek řešení) kovariance či korelace mezi původními a novými proměnnými.

Uvedený faktorový model můžeme přepsat v maticové podobě jako

(2)

kde je datová matice rozměru , je matice rozměru nxm, jejíž sloupce jsou jednotlivé společné faktory , je matice faktorových zátěží rozměru a je matice chyb s rozměrem , jejíž sloupce jsou jednotlivé specifické faktory .

Pro ortogonální faktorový model lze kovarianční matici S vstupujících proměnných (tedy sloupců datové matice ), jejíž rozměr je , napsat ve formě tzv. základní faktorové věty ve tvaru

(3)

kde je kovarianční matice sloupců matice , přičemž , protože kovarianční matice společných faktorů   je jednotková matice z důvodu, že faktory jsou nekorelované a mají jednotkový rozptyl. Matice  je kovarianční matice chybových faktorů a nazývá se matice jedinečností. Je to diagonální matice, protože předpokládáme nekorelované chyby.
Faktorový model nám tedy umožní rozdělení rozptylu původních proměnných (diagonální prvky matice ) na dvě části, a to na část vysvětlenou společnými faktory (diagonální prvky matice ) označovanou jako komunalita (communality) a část nevysvětlenou společnými faktory (diagonální prvky matice jedinečností ) označovanou jako jedinečnost. Komunalita i-té proměnné (tedy i-tý diagonální prvek matice ) vyjadřuje míru proměnlivosti a je vahou, s jakou jednotlivé společné faktory přispívají do rozptylu dané proměnné. Lze ji vyjádřit jako , tedy jako součet druhých mocnin faktorových zátěží.
Jedinečnost -té proměnné () bývá dále rozdělována na specificitu a nespolehlivost . Specifita představuje tu část variability, kterou nelze vysvětlit ani chybou experimentu, ani společnými faktory, zatímco nespolehlivost představuje experimentální chybu při měření faktorů. Uvedený způsob rozkladu variability představuje základní hledisko pro klasifikaci metod faktorové analýzy.
Metoda hlavních komponent je zvláštním případem faktorové analýzy, kdy je matice jedinečností nulová, a tudíž se předpokládá, že prostřednictvím hlavních komponent lze proměnlivost zdrojové matice beze zbytku reprodukovat. Jde tedy o vhodnou ortogonální transformaci, která beze zbytku zachovává všechnu původní proměnlivost. Hovoříme pak z hlediska faktorové analýzy o úplné komponentní analýze. Jestliže při reprodukci pomocí hlavních komponent reprodukujeme pouze podstatnou část proměnlivosti (ale ne všechnu), jedná se o neúplnou komponentní analýzu.
Pro odhad parametrů faktorového modelu se často používá analýza hlavních komponent. Pomocí hlavních komponent si můžeme daný objekt zapsat pomocí

(4)

Naším cílem je však nalezení pouze m společných faktorů (), proto je pomocí PCA nalezeno jen prvních m hlavních komponent (, j=1,...,m), které zahrnují největší podíl rozptylu všech původních proměnných. Stanovení hodnoty m může probíhat na základě expertní znalosti, procenta vyčerpané variability danými komponentami, sutinového grafu (scree plot) či Kaiserova-Gutmanova kritéria. Hlavní komponenty jsou následně modifikovány do faktorového modelu. Aby byl rozptyl společných faktorů jednotkový, vydělí se každá hlavní komponenta její směrodatnou odchylkou  (což je diagonální prvek matice ) a vznikne tak společný faktor

(5)

z něhož můžeme vyjádřit j-tou hlavní komponentu jako

(6)

Po dosazení do (4) a použití pouze prvních m komponent, přičemž zbylé komponenty shrneme do chybových složek (specifických faktorů) následujícím způsobem

(7)

dostáváme

(8)

což je faktorový model totožný s (1), přičemž faktorové zátěže lze vyjádřit jako . Tím jsme transformovali hlavní komponenty na faktory. Protože naším cílem je nejen nalezení společných faktorů, jejichž počet je menší než počet původních proměnných, ale i jejich dobrá interpretace, provedeme v následujícím kroku rotaci faktorů.   

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity