Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Ordinační analýzy Faktorová analýza Příklad

Logo Matematická biologie

Příklad

Faktorovou analýzu představíme na příkladu hodnocení životní spokojenosti respondentů. Jde o datový soubor factor.sta, který je součástí ukázkových příkladů v softwaru STATISTICA (Tabulka 1).

Tabulka 1: Část vstupní tabulky k analýze hodnocení životní spokojenosti respondentů. Hodnoty spokojenosti s prací, koníčky a domácností byly zaznamenány u 100 respondentů (zde pouze ukázka prvních 10 respondentů). V posledních dvou řádcích je uveden průměr a směrodatná odchylka jednotlivých proměnných.

Řešení

Před výpočtem faktorových zátěží je vhodné zkontrolovat, zda jsou původní proměnné korelovány. Kdyby byla korelace všech proměnných malá a statisticky nevýznamná, v datech by se skrytá struktura nevyskytovala a nemělo by tedy smysl faktorovou analýzu k jejímu hledání použít. Sílu korelace proměnných ověříme pomocí korelační matice (Tabulka 2) a maticového grafu (Obr. 2). Protože tabulka i graf ukazují, že jsou v datech silné korelace mezi některými proměnnými, použijeme faktorovou analýzu k nalezení skrytých faktorů.

Tabulka 2: Matice korelací původních proměnných.
 
 
Obr. 2: Maticový graf vztahů původních proměnných.

Jako metodu extrakce faktorů zvolíme analýzu hlavních komponent, tedy vytvoříme hlavní komponenty na základě výše uvedené korelační matice. Vlastní číslo prvního faktoru je 6,118 a rozptyl vysvětlený tímto faktorem je 61,2%. Druhý faktor vysvětluje 18,0% rozptylu a zbylé faktory vždy méně než 5% celkového rozptylu (Obr 3). Další vlastní čísla jsou menší než jedna, podle Kaiserova-Guttmanova kritéria je tedy vhodné interpretovat pouze první dva faktory, protože jenom ty vysvětlují více rozptylu než původní proměnné. Z grafického znázornění vlastních čísel pomocí sutinového grafu (scree plot) na Obr. 3 však vyplývá, že došlo ke dvěma důležitým zlomům na křivce, a to pro dva a tři faktory. Z tohoto důvodu je možné doporučit řešení faktorové analýzy nejen pro dva faktory, jak tomu vyplynulo z Kaiserova-Guttmanova kritéria, ale i pro tři faktory.

 
Obr. 3: Sutinový graf znázorňující vlastní čísla příslušná jednotlivým faktorům.

Podívejme se teď na faktorové zátěže. Uvedli jsme, že faktorové váhy (neboli zátěže) můžeme interpretovat jako korelace mezi faktory a proměnnými. Faktorové zátěže tedy představují nejdůležitější informaci pro interpretaci faktorů. V tabulce 3 jsou uvedeny faktorové zátěže nerotovaných faktorů. U prvního faktoru se nalézají nejvyšší faktorové zátěže, u druhého nižší, atd. Faktory s vyšším pořadovým číslem vysvětlují stále méně a méně variability v datech. Červeně jsou vyznačeny statisticky významné vztahy. Znaménko faktorové zátěže hraje roli jen v tom smyslu, že proměnné se zátěžemi s opačným znaménkem u toho samého faktoru mají k tomuto faktoru opačný vztah. Když všechny zátěže u faktoru vynásobíme hodnotou -1 (např. v našem případě u Faktoru 1), výsledek tímto nebude ovlivněn.

Tabulka 3: Faktorové zátěže nerotovaných faktorů.

Přistupme nyní k rotaci faktorů. Aktuální orientace faktorů je náhodná a všechny rotace reprodukují korelace stejně dobře. Je zřejmé, že rotace faktorů bude taková, aby faktorová struktura byla nejjednodušeji interpretovatelná. Faktorové řešení má jednoduchou strukturu, když mají faktory vysoké zátěže pro určité proměnné, nízké zátěže pro jiné a když je málo proměnných s vysokou zátěží pro více než jeden faktor. Nejběžnější metoda rotace, kterou je možné dosáhnout jednoduché struktury výsledných dat, je rotace varimax. Jak jsme již uvedli, je nutno zvolit počet faktorů, které chceme rotovat, tj. zachovat a interpretovat. Uvedli jsme, že podle Kaiserova-Guttmanova kritéria je vhodný počet faktorů dva, ovšem podle sutinového grafu můžeme zvolit také tři faktory. V našem příkladu tedy zvolíme počet faktorů tři a metodu rotace varimax.

Výsledkem faktorové analýzy jsou tři faktory, jejichž zátěže jsou uvedeny v Tabulce 4. Vysoké faktorové zátěže prvního faktoru byly u všech proměnných kromě proměnných spokojenosti doma. Druhý faktor měl vysoké hodnoty faktorové zátěže pro dvě proměnné spokojenosti doma, třetí faktor pouze jedinou vysokou faktorovou zátěž pro jednu proměnnou spokojenosti doma. V tomto případě, kdy pouze jedna proměnná vykazuje vysokou hodnotu faktorové zátěže na třetím faktoru, je vhodné přehodnotit zachování tří faktorů a zvolit pouze dva faktory.

Tabulka 4: Faktorové zátěže třech rotovaných faktorů (metoda rotace varimax).

Byla tedy následně provedena rotace varimax pro dva faktory (Tabulka 5). Při zachování dvou faktorů vykazuje první faktor vysoké zátěže pro proměnné spokojenosti při práci, spokojenosti s koníčky a spokojenosti v dalších (různých) oblastech. Proměnné spokojenosti doma dosahují nejmenších zátěží. Druhý faktor vykazuje nejvyšší zátěže proměnných spokojenosti doma a nejnižší zátěže pro spokojenost v práci. Ostatní proměnné leží přibližně uprostřed. Faktorové zátěže všech proměnných můžeme zobrazit v dvourozměrném grafu (Obrázek 4). Interpretace faktorů je zcela zřejmá, první faktor můžeme interpretovat jako spokojenost při práci (Faktor 1) a druhý faktor jako spokojenost doma (Faktor 2). Spokojenost s koníčky a spokojenost v dalších oblastech života mají vztah s oběma faktory. Spokojenost při práci a spokojenost doma jsou na sobě nezávislé, obě ovšem přispívají ke spokojenosti s koníčky a spokojenosti v dalších aspektech života.

Tabulka 5: Faktorové zátěže dvou rotovaných faktorů (metoda rotace varimax).
 
Obr. 4: Zobrazení faktorových zátěží v dvourozměrném řešení, metoda rotace varimax.

Na tomto místě můžeme přistoupit ke zhodnocení spolehlivosti dvourozměrné reprezentace původních proměnných. Jak už jsme výše uvedli, první dva faktory vysvětlují 79% celkové variability. Z matice reziduálních korelací (Tabulka 6) vidíme, jak dobře dvourozměrné řešení faktorové analýzy reprodukuje pozorovanou korelační matici původních proměnných. Hodnoty v matici reziduí představují korelaci proměnných, která není vysvětlena dvourozměrným řešením faktorové analýzy. Prvky na diagonále matice představují směrodatnou odchylku, která nemohla být vysvětlena. Tato hodnota je rovna odmocnině z jedna mínus příslušná komunalita dvou faktorů (komunalita proměnné je rozptyl, který může být vysvětlen příslušným počtem faktorů).

Tabulka 6: Reziduální korelace.

Z tabulky 6 vidíme, že reziduální korelace nejsou větší než 0,13 nebo menší než -0,13. To jsou velice příznivé hodnoty potvrzující (společně s 79% vysvětlenou variabilitou) spolehlivé dvourozměrné řešení.
Na závěr uvedeme komunality a koeficienty faktorového skóre (Tabulka 7). Připomeňme, že komunality proměnných představují část rozptylu vysvětlenou daným počtem faktorů. Rotace faktorového prostoru nemá na komunality žádný vliv. Velice nízké komunality jedné nebo více proměnných naznačují, že tyto proměnné nejsou dostatečně dobře vysvětleny daným modelem. Koeficienty faktorových skóre představují váhy, které se použijí k výpočtu faktorového skóre z proměnných. Můžou být použity v dalších analýzách.

Tabulka 7: Komunality a faktorové skóre
 
 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity