Výběrové charakteristiky vícerozměrných dat
V předchozí kapitole jsme si uvedli, že vícerozměrný datový soubor n objektů popsaných
p proměnnými můžeme zapsat ve formě matice X s rozměry n x p:
.
Vektory popisující jednotlivé objekty tedy tvoří řádky matice , zatímco sloupce této matice odpovídají jednotlivým sledovaným proměnným (neboli charakteristikám). Jeden prvek matice je hodnota j-té proměnné u i‑tého objektu, přičemž j = 1, ..., p a i = 1, ..., n.
Vícerozměrná data můžeme popsat vektorem výběrových průměrů jednotlivých proměnných
(1)
|
kde , j = 1, ..., p, je výběrový průměr j-té proměnné. Vektor výběrových průměrů je realizací vektoru středních hodnot μ, s nímž se setkáme v následujících podkapitolách při popisu vícerozměrných rozdělení.
Další používanou charakteristikou vícerozměrných dat je výběrová kovarianční matice proměnných jež je realizací kovarianční matice , přičemž
(2)
|
kde , j = 1, ..., p, je výběrový rozptyl j‑té proměnné a , j = 1, ..., p, k = 1, ..., p, je výběrová kovariance j‑té a k‑té proměnné. Výběrová kovarianční matice je tedy symetrická matice, která na diagonále obsahuje rozptyly jednotlivých proměnných a mimo diagonálu kovariance všech dvojic proměnných. Kovariance určuje míru lineární závislosti dvou proměnných a je tím větší (v absolutní hodnotě), čím je větší závislost mezi proměnnými. Pokud s rostoucími hodnotami jedné proměnné rostou i hodnoty druhé proměnné, kovariance nabývá kladných hodnot, zatímco pokud s rostoucími hodnotami jedné proměnné klesají hodnoty druhé proměnné, kovariance je záporná. Jestliže mezi proměnnými není vztah, kovariance je nulová. Maticově můžeme výběrovou kovarianční matici vypočítat pomocí
|
(3)
|
Pokud známe rozptyly a kovariance proměnných, můžeme vypočítat i matici výběrových (Pearsonových) korelačních koeficientů:
(4)
|
kde , j = 1, ..., p, k = 1, ..., p, je výběrový (Pearsonův) korelační koeficient j‑té a k‑té proměnné. Matice výběrových (Pearsonových) korelačních koeficientů je rovněž symetrická matice, na rozdíl od kovarianční matice jsou však na diagonále jedničky a mimo diagonálu korelační koeficienty. Korelační koeficienty stejně jako kovariance odrážejí míru lineární závislosti dvou proměnných, které jsou však standardizované (tedy odstraňuje se vliv různých rozptylů proměnných). Korelační koeficienty nabývají hodnot od -1 do 1, přičemž znaménko je stejné jako u kovariancí (tedy záporná korelace znamená, že s rostoucími hodnotami jedné proměnné se snižují hodnoty druhé proměnné apod.). Čím je hodnota korelačního koeficientu bližší hodnotě nula, tím je menší vztah mezi proměnnými.
Při výpočtu matice výběrových (Pearsonových) korelačních koeficientů i kovarianční matice bychom měli mít na paměti, že hodnoty korelačních koeficientů i kovariancí jsou velice citlivé na odlehlé hodnoty, jejichž identifikace je popsána v předposlední podkapitole této kapitoly . Pokud se k ověření, zda v datech existují odlehlé hodnoty, rozhodneme nepoužít statistické testy ani složitější grafické metody, měli bychom alespoň vykreslit maticové grafy, které nám pomohou vizuálně odhalit odlehlé hodnoty a případně i výskyt skupin v datech, což také může zkreslit hodnoty korelačních koeficientů a kovariancí .
Při popisné sumarizaci vícerozměrných dat se však nemusíme omezovat jen na výpočet charakteristik jednotlivých proměnných, můžeme spočítat například i vektor výběrových průměrů hodnot popisujících jednotlivé objekty
|
(5)
|
přičemž , i = 1, ..., n, je výběrový průměr vektoru popisujícího i-tý objekt. Stejně tak můžeme vypočítat i kovarianční matici objektů či matici výběrových (Pearsonových) korelačních koeficientů objektů.
Příklad
Vypočítejte vektor výběrových průměrů proměnných a kovarianční matici na datech třech pacientů se schizofrenií, u nichž byl měřen objem hipokampu a mozkových komor (viz. Tabulka 1).
Tabulka 1. Datová tabulka obsahující údaje o objemu hipokampu a mozkových komor u třech pacientů se schizofrenií.
ID |
Objem hipokampu |
Objem mozkových komor |
1 |
2 |
12 |
2 |
4 |
10 |
3 |
3 |
8 |
Řešení
Výpočet vektoru výběrových průměrů:
Pro výpočet kovarianční matice počítáme postupně:
- rozptyl objemu hipokampu:
- rozptyl objemu mozkových komor:
- kovariance objemu hipokampu a objemu mozkových komor:
Výsledná kovarianční matice je tedy: