Zatímco první situaci na obrázku 11.3 lze řešit rozdělením souboru na dva a následným výpočtem korelačního koeficientu v obou podsouborech, v situaci odpovídající grafu vpravo nahoře nemá smysl Pearsonův korelační koeficient počítat vůbec, neboť ten odráží pouze lineární závislost. Rozšíření směrem k hodnocení určitých forem nelineární závislosti představuje tzv. Spearmanův korelační koeficient (Spearman rank-correlation coefficient). Jedná se o neparametrický korelační koeficient, který je robustní vůči odlehlým hodnotám a obecně odchylkám od normality, neboť stejně jako řada dalších neparametrických metod pracuje pouze s pořadími pozorovaných hodnot. Na rozdíl od Pearsonova koeficientu korelace, který popisuje lineární vztah veličin X a Y, Spearmanův koeficient korelace popisuje, jak dobře vztah veličin X a Y odpovídá monotónní funkci, která může být samozřejmě nelineární.

Při výpočtu opět vycházíme z realizace dvourozměrného náhodného vektoru o rozsahu n, tedy dvojic pozorovaných hodnot náhodných veličin X a Y pro n subjektů. Dále definujme číslo x_ri jako pořadí hodnoty x_i v rámci vzestupně uspořádaných hodnot x₁, ..., x_n, číslo y_ri jako pořadí hodnoty y_i v rámci vzestupně uspořádaných hodnot y₁, ..., y_n, čísla a jako průměry hodnot x_ri, respektive y_ri (tedy jako průměrná pořadí), a čísla a jako odpovídající směrodatné odchylky. Spearmanův korelační koeficient, označme ho r_s, pak vypočítáme pomocí vzorce

(11.16)

což není nic jiného než vzorec pro výběrový Pearsonův korelační koeficient počítaný na pořadích pozorovaných hodnot. Hodnoty r_s se pohybují stejně jako v případě koeficientu r v rozmezí od -1 do 1. Hodnot kolem nuly nabývá Spearmanův korelační koeficient v případě, že pořadí hodnot x_i a y_i jsou náhodně zpřeházená a mezi sledovanými veličinami není žádný vztah. Naopak hodnot -1 a 1 nabývá Spearmanův korelační koeficient v případě, že jedna z veličin je monotónní funkcí druhé veličiny.

Výpočetní alternativou ke vzorci (11.16) je výpočet založený na diferencích pořadí pozorovaných hodnot, které definujeme jako . Hodnotu Spearmanova korelační koeficient pak odhadneme pomocí vztahu

(11.17)

Tento výpočet r_s platí přesně pouze pro neopakovaná pozorování, což znamená, že je citlivý na opakující se hodnoty, které vedou k průměrování pořadí. Vyskytuje-li se mezi hodnotami x₁, ..., x_n, respektive y₁, ..., y_n, množství shodných hodnot, je vhodnější použít k výpočtu Spearmanova korelačního koeficientu definiční vztah (11.16).

Příklad 11.4. Pro srovnání s hodnotou r = 0,64 vypočtenou v příkladu 11.1 odhadneme korelaci výšky a hmotnosti studentů biostatistiky také pomocí Spearmanova koeficientu korelace. Hodnoty potřebné k výpočtu jsou uvedeny v tabulce 11.2. Vzhledem k přítomnosti opakovaných hodnot u výšky i hmotnosti vypočteme nejprve Spearmanův korelační koeficient s použitím vzorce (11.16):

(11.18)

Dále vypočteme hodnotu r_s i pomocí vztahu (11.17). V tomto případě dosadíme hodnoty z tabulky 11.2 následovně:

(11.19)

Je vidět, že v tomto případě dávají oba výpočty koeficientu r_s velmi podobné výsledky, které odpovídají střední korelaci mezi výškou a hmotností. Oba výsledky se však liší od původně vypočtené hodnoty r = 0,64. Důvodem jsou dvě pozorování odpovídající hmotnosti 90 kg, které úplně nekorespondují se zbytkem souboru (viz obrázek 11.1). V tomto případě, kdy máme velmi limitovanou velikost výběrového souboru, je tedy lepší dát přednost neparametrické variantě, tedy hodnotě Spearmanova koeficientu korelace.

Tab. 11.2: Hodnoty pro výpočet Spearmanova koeficientu korelace výšky a hmotnosti studentů.

Student

Výška: x_i

Pořadí výšky

Hmotnost: y_i

Pořadí hmotnosti

Rozdíl d_i

d_i²

1

175

10

69

10

0

0

2

166

1

55

3

-2

4

3

170

4

67

8

-4

16

4

169

2,5

52

1

1,5

2,25

5

188

13

90

12,5

0,5

0,25

6

175

10

53

2

8

64

7

176

12

57

4,5

7,5

56,25

8

171

5

57

4,5

0,5

0,25

9

173

6,5

68

9

-2,5

6,25

10

175

10

73

11

-1

1

11

173

6,5

62

6

0,5

0,25

12

174

8

90

12,5

-4,5

20,25

13

169

2,5

63

7

-4,5

20,25

Student	Výška: x_i	Pořadí výšky	Hmotnost: y_i	Pořadí hmotnosti	Rozdíl d_i	d_i²
1	175	10	69	10	0	0
2	166	1	55	3	-2	4
3	170	4	67	8	-4	16
4	169	2,5	52	1	1,5	2,25
5	188	13	90	12,5	0,5	0,25
6	175	10	53	2	8	64
7	176	12	57	4,5	7,5	56,25
8	171	5	57	4,5	0,5	0,25
9	173	6,5	68	9	-2,5	6,25
10	175	10	73	11	-1	1
11	173	6,5	62	6	0,5	0,25
12	174	8	90	12,5	-4,5	20,25
13	169	2,5	63	7	-4,5	20,25

Konstrukce 100(1 – α)% intervalu spolehlivosti i test nulové hypotézy H₀: r_s = 0 probíhá pro Spearmanův korelační koeficient stejně jako pro koeficient Pearsonův. Co se týče konstrukce intervalu spolehlivosti, výběrové rozdělení r_s je pro výběry o velikosti alespoň 10 stejné jako výběrové rozdělení r. Pro větší vzorky, kdy je velikost souboru alespoň 30, je pak možné použít pro ověření nulové hypotézy r_s = 0 stejnou testovou statistiku jako v případě r danou vztahem (11.13). Pro zamítnutí H₀: r_s = 0 pak platí také stejná pravidla jako pro koeficient r.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity