Slovník | Vyhledávání | Mapa webu
 
Aplikovaná analýza klinických a biologických datBiostatistika pro matematickou biologii Základy korelační analýzy Spearmanův korelační koeficient

Logo Matematická biologie

Spearmanův korelační koeficient

Zatímco první situaci na obrázku 11.3 lze řešit rozdělením souboru na dva a následným výpočtem korelačního koeficientu v obou podsouborech, v situaci odpovídající grafu vpravo nahoře nemá smysl Pearsonův korelační koeficient počítat vůbec, neboť ten odráží pouze lineární závislost. Rozšíření směrem k hodnocení určitých forem nelineární závislosti představuje tzv. Spearmanův korelační koeficient (Spearman rank-correlation coefficient). Jedná se o neparametrický korelační koeficient, který je robustní vůči odlehlým hodnotám a obecně odchylkám od normality, neboť stejně jako řada dalších neparametrických metod pracuje pouze s pořadími pozorovaných hodnot. Na rozdíl od Pearsonova koeficientu korelace, který popisuje lineární vztah veličin X a Y, Spearmanův koeficient korelace popisuje, jak dobře vztah veličin X a Y odpovídá monotónní funkci, která může být samozřejmě nelineární.

Při výpočtu opět vycházíme z realizace dvourozměrného náhodného vektoru o rozsahu n, tedy dvojic pozorovaných hodnot náhodných veličin X a Y pro n subjektů. Dále definujme číslo xri jako pořadí hodnoty xi v rámci vzestupně uspořádaných hodnot x1, ..., xn, číslo yri jako pořadí hodnoty yi v rámci vzestupně uspořádaných hodnot y1, ..., yn, čísla  a  jako průměry hodnot xri, respektive yri (tedy jako průměrná pořadí), a čísla  a  jako odpovídající směrodatné odchylky. Spearmanův korelační koeficient, označme ho rs, pak vypočítáme pomocí vzorce

(11.16)

což není nic jiného než vzorec pro výběrový Pearsonův korelační koeficient počítaný na pořadích pozorovaných hodnot. Hodnoty rs se pohybují stejně jako v případě koeficientu r v rozmezí od -1 do 1. Hodnot kolem nuly nabývá Spearmanův korelační koeficient v případě, že pořadí hodnot xi a yi jsou náhodně zpřeházená a mezi sledovanými veličinami není žádný vztah. Naopak hodnot -1 a 1 nabývá Spearmanův korelační koeficient v případě, že jedna z veličin je monotónní funkcí druhé veličiny.

Výpočetní alternativou ke vzorci (11.16) je výpočet založený na diferencích pořadí pozorovaných hodnot, které definujeme jako . Hodnotu Spearmanova korelační koeficient pak odhadneme pomocí vztahu

(11.17)

Tento výpočet rs platí přesně pouze pro neopakovaná pozorování, což znamená, že je citlivý na opakující se hodnoty, které vedou k průměrování pořadí. Vyskytuje-li se mezi hodnotami x1, ..., xn, respektive y1, ..., yn, množství shodných hodnot, je vhodnější použít k výpočtu Spearmanova korelačního koeficientu definiční vztah (11.16).

Příklad 11.4. Pro srovnání s hodnotou r = 0,64 vypočtenou v příkladu 11.1 odhadneme korelaci výšky a hmotnosti studentů biostatistiky také pomocí Spearmanova koeficientu korelace. Hodnoty potřebné k výpočtu jsou uvedeny v tabulce 11.2. Vzhledem k přítomnosti opakovaných hodnot u výšky i hmotnosti vypočteme nejprve Spearmanův korelační koeficient s použitím vzorce (11.16):

(11.18)

Dále vypočteme hodnotu rs i pomocí vztahu (11.17). V tomto případě dosadíme hodnoty z tabulky 11.2 následovně:

(11.19)

Je vidět, že v tomto případě dávají oba výpočty koeficientu rs velmi podobné výsledky, které odpovídají střední korelaci mezi výškou a hmotností. Oba výsledky se však liší od původně vypočtené hodnoty r = 0,64. Důvodem jsou dvě pozorování odpovídající hmotnosti 90 kg, které úplně nekorespondují se zbytkem souboru (viz obrázek 11.1). V tomto případě, kdy máme velmi limitovanou velikost výběrového souboru, je tedy lepší dát přednost neparametrické variantě, tedy hodnotě Spearmanova koeficientu korelace.

Tab. 11.2: Hodnoty pro výpočet Spearmanova koeficientu korelace výšky a hmotnosti studentů.

Student

Výška: xi

Pořadí výšky

Hmotnost: yi

Pořadí hmotnosti

Rozdíl di

di2

1

175

10

69

10

0

0

2

166

1

55

3

-2

4

3

170

4

67

8

-4

16

4

169

2,5

52

1

1,5

2,25

5

188

13

90

12,5

0,5

0,25

6

175

10

53

2

8

64

7

176

12

57

4,5

7,5

56,25

8

171

5

57

4,5

0,5

0,25

9

173

6,5

68

9

-2,5

6,25

10

175

10

73

11

-1

1

11

173

6,5

62

6

0,5

0,25

12

174

8

90

12,5

-4,5

20,25

13

169

2,5

63

7

-4,5

20,25

Konstrukce 100(1 – α)% intervalu spolehlivosti i test nulové hypotézy H0: rs = 0 probíhá pro Spearmanův korelační koeficient stejně jako pro koeficient Pearsonův. Co se týče konstrukce intervalu spolehlivosti, výběrové rozdělení rs je pro výběry o velikosti alespoň 10 stejné jako výběrové rozdělení r. Pro větší vzorky, kdy je velikost souboru alespoň 30, je pak možné použít pro ověření nulové hypotézy rs = 0 stejnou testovou statistiku jako v případě r danou vztahem (11.13). Pro zamítnutí H0: rs = 0 pak platí také stejná pravidla jako pro koeficient r.

 

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity