Spearmanův korelační koeficient
Zatímco první situaci na obrázku 11.3 lze řešit rozdělením souboru na dva a následným výpočtem korelačního koeficientu v obou podsouborech, v situaci odpovídající grafu vpravo nahoře nemá smysl Pearsonův korelační koeficient počítat vůbec, neboť ten odráží pouze lineární závislost. Rozšíření směrem k hodnocení určitých forem nelineární závislosti představuje tzv. Spearmanův korelační koeficient (Spearman rank-correlation coefficient). Jedná se o neparametrický korelační koeficient, který je robustní vůči odlehlým hodnotám a obecně odchylkám od normality, neboť stejně jako řada dalších neparametrických metod pracuje pouze s pořadími pozorovaných hodnot. Na rozdíl od Pearsonova koeficientu korelace, který popisuje lineární vztah veličin X a Y, Spearmanův koeficient korelace popisuje, jak dobře vztah veličin X a Y odpovídá monotónní funkci, která může být samozřejmě nelineární.
Při výpočtu opět vycházíme z realizace dvourozměrného náhodného vektoru o rozsahu n, tedy dvojic pozorovaných hodnot náhodných veličin X a Y pro n subjektů. Dále definujme číslo xri jako pořadí hodnoty xi v rámci vzestupně uspořádaných hodnot x1, ..., xn, číslo yri jako pořadí hodnoty yi v rámci vzestupně uspořádaných hodnot y1, ..., yn, čísla a jako průměry hodnot xri, respektive yri (tedy jako průměrná pořadí), a čísla a jako odpovídající směrodatné odchylky. Spearmanův korelační koeficient, označme ho rs, pak vypočítáme pomocí vzorce
(11.16) |
což není nic jiného než vzorec pro výběrový Pearsonův korelační koeficient počítaný na pořadích pozorovaných hodnot. Hodnoty rs se pohybují stejně jako v případě koeficientu r v rozmezí od -1 do 1. Hodnot kolem nuly nabývá Spearmanův korelační koeficient v případě, že pořadí hodnot xi a yi jsou náhodně zpřeházená a mezi sledovanými veličinami není žádný vztah. Naopak hodnot -1 a 1 nabývá Spearmanův korelační koeficient v případě, že jedna z veličin je monotónní funkcí druhé veličiny.
Výpočetní alternativou ke vzorci (11.16) je výpočet založený na diferencích pořadí pozorovaných hodnot, které definujeme jako . Hodnotu Spearmanova korelační koeficient pak odhadneme pomocí vztahu
(11.17) |
Tento výpočet rs platí přesně pouze pro neopakovaná pozorování, což znamená, že je citlivý na opakující se hodnoty, které vedou k průměrování pořadí. Vyskytuje-li se mezi hodnotami x1, ..., xn, respektive y1, ..., yn, množství shodných hodnot, je vhodnější použít k výpočtu Spearmanova korelačního koeficientu definiční vztah (11.16).
Příklad 11.4. Pro srovnání s hodnotou r = 0,64 vypočtenou v příkladu 11.1 odhadneme korelaci výšky a hmotnosti studentů biostatistiky také pomocí Spearmanova koeficientu korelace. Hodnoty potřebné k výpočtu jsou uvedeny v tabulce 11.2. Vzhledem k přítomnosti opakovaných hodnot u výšky i hmotnosti vypočteme nejprve Spearmanův korelační koeficient s použitím vzorce (11.16):
(11.18) Dále vypočteme hodnotu rs i pomocí vztahu (11.17). V tomto případě dosadíme hodnoty z tabulky 11.2 následovně:
(11.19) Je vidět, že v tomto případě dávají oba výpočty koeficientu rs velmi podobné výsledky, které odpovídají střední korelaci mezi výškou a hmotností. Oba výsledky se však liší od původně vypočtené hodnoty r = 0,64. Důvodem jsou dvě pozorování odpovídající hmotnosti 90 kg, které úplně nekorespondují se zbytkem souboru (viz obrázek 11.1). V tomto případě, kdy máme velmi limitovanou velikost výběrového souboru, je tedy lepší dát přednost neparametrické variantě, tedy hodnotě Spearmanova koeficientu korelace.
Tab. 11.2: Hodnoty pro výpočet Spearmanova koeficientu korelace výšky a hmotnosti studentů.
Student
Výška: xi
Pořadí výšky
Hmotnost: yi
Pořadí hmotnosti
Rozdíl di
di2
1
175
10
69
10
0
0
2
166
1
55
3
-2
4
3
170
4
67
8
-4
16
4
169
2,5
52
1
1,5
2,25
5
188
13
90
12,5
0,5
0,25
6
175
10
53
2
8
64
7
176
12
57
4,5
7,5
56,25
8
171
5
57
4,5
0,5
0,25
9
173
6,5
68
9
-2,5
6,25
10
175
10
73
11
-1
1
11
173
6,5
62
6
0,5
0,25
12
174
8
90
12,5
-4,5
20,25
13
169
2,5
63
7
-4,5
20,25
Konstrukce 100(1 – α)% intervalu spolehlivosti i test nulové hypotézy H0: rs = 0 probíhá pro Spearmanův korelační koeficient stejně jako pro koeficient Pearsonův. Co se týče konstrukce intervalu spolehlivosti, výběrové rozdělení rs je pro výběry o velikosti alespoň 10 stejné jako výběrové rozdělení r. Pro větší vzorky, kdy je velikost souboru alespoň 30, je pak možné použít pro ověření nulové hypotézy rs = 0 stejnou testovou statistiku jako v případě r danou vztahem (11.13). Pro zamítnutí H0: rs = 0 pak platí také stejná pravidla jako pro koeficient r.