
Výpočet Pearsonova korelačního koeficientu
Teoretický výpočet R(X,Y) je podmíněn znalostí konkrétního rozdělení pravděpodobnosti náhodného vektoru (X,Y), což se v praxi stává velmi zřídka. Lineární vztah náhodných veličin X a Y tak kvantifikujeme na základě výběrového souboru. Výběrový Pearsonův korelační koeficient standardně značíme r a při jeho výpočtu vycházíme z realizace dvourozměrného náhodného vektoru o rozsahu n, tedy dvojic pozorovaných hodnot náhodných veličin X a Y pro první až n-tou experimentální jednotku:
|
(11.2) |
Výpočet výběrového Pearsonova korelačního koeficientu je pak následující:
|
(11.3) |
kde a
jsou výběrové průměry,
a
jsou výběrové směrodatné odchylky. Na obrázku 11.2 jsou zobrazeny realizace náhodných veličin X a Y a k nim příslušné výběrové korelační koeficienty pro čtyři různé situace: graf vlevo nahoře odpovídá úplné lineární závislosti; graf vpravo nahoře ukazuje příklad relativně silné záporné korelace; vlevo dole pak vidíme slabě kladně korelované veličiny; vpravo dole jsou nakonec zobrazeny veličiny nekorelované.
Příklad 11.1. Vypočítejme výběrový Pearsonův korelační koeficient kvantifikující korelaci mezi výškou a hmotností studentů předmětu Biostatistika pro matematickou biologii v jarním semestru 2010. Pozorované hodnoty (realizace náhodného vektoru o rozsahu n = 13) jsou uvedeny v tabulce 11.1, navíc jsou předmětem obrázku 11.1.
Tab. 11.1: Pozorované hodnoty výšky a hmotnosti 13 studentů.
175
166
170
169
188
175
176
171
173
175
173
174
169
69
55
67
52
90
53
57
57
68
73
62
90
63
Výpočet výběrových statistik pro jednoduchost vynecháme (laskavý čtenář si je může jednoduše dopočítat na základě dat v tabulce 11.1, dosazením do vztahu (11.3) získáme následující hodnotu výběrového Pearsonova korelačního koeficientu:
|
(11.4) |
Hodnota r =0,64 ukazuje na silnou korelaci, kdy s vyšší výškou roste i hmotnost, což odpovídá očekávání, nicméně je třeba si uvědomit malou velikost výběrového souboru a dvě odlehlé hodnoty na obrázku 1 odpovídající hmotnosti 90 kg, které úplně nekorespondují se zbytkem souboru. Obě tyto skutečnosti ovlivňují výslednou hodnotu r.

Obr. 11.2: Ukázky realizací náhodných veličin X a Y a vypočtené výběrové korelační koeficienty.