Aplikovaná analýza klinických a biologických datAnalýza a management dat pro zdravotnické obory, Analýza klinických dat Základy korelační analýzy Spearmanův korelační koeficient

Analýza a management dat pro zdravotnické obory, Analýza klinických dat |

Úvod do statistické analýzy dat pro zdravotnické obory |

Literatura |

Data, jejich popis a vizualizace |

Výstupy z výukové jednotky | Typy dat | Význam popisu a vizualizace dat |

Popis a vizualizace kvalitativních dat | Popis a vizualizace kvantitativních dat |

Identifikace odlehlých hodnot | Literatura |

Náhodná veličina, rozdělení pravděpodobnosti a reálná data |

Literatura |

Bodové a intervalové odhady |

Výstupy z výukové jednotky | Nestranné odhady | Srovnání průměru a mediánu | Teoretické pozadí intervalových odhadů |

Vlastnosti výběrového průměru | Centrální limitní věta |

Intervalové odhady |

Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení | Interpretace intervalu spolehlivosti | Šířka intervalu spolehlivosti |

Literatura |

Úvod do testování hypotéz |

Spojitost testování hypotéz s intervaly spolehlivosti | Statistická a praktická významnost | Faktory ovlivňující sílu testu |

Literatura |

Testování hypotéz o kvantitativních proměnných |

Výstupy z výukové jednotky | Postup statistického testování | Testy o parametrech jednoho rozdělení |

Test o střední hodnotě při známém rozptylu (z-test pro jeden výběr) | Test o střední hodnotě při neznámém rozptylu (t-test pro jeden výběr) | Neparametrický test pro jeden výběr (Wilcoxonův test) | Test o rozdílu párových (závislých) pozorování (párový t-test) |

Testy o parametrech dvou rozdělení |

Test o rozdílu středních hodnot dvou nezávislých výběrů při stejných rozptylech (t-test pro dva | Test o shodnosti (homogenitě) rozptylů dvou nezávislých výběrů (F-test) | Neparametrický test pro dva výběry (Mannův-Whitneyho test) | Literatura |

Analýza rozptylu (ANOVA) |

Výstupy z výukové jednotky | Přínos analýzy rozptylu | Variabilita výběrových souborů a princip výpočtu | Předpoklady analýzy rozptylu a jejich ověření |

Hodnocení normality pozorovaných hodnot |

Neparametrická alternativa analýzy rozptylu – Kruskalův-Wallisův test | Literatura |

Testování hypotéz o kvalitativních proměnných |

Výstupy z výukové jednotky | Úvod | Testování hypotéz o podílech |

Interval spolehlivosti pro parametr π binomického rozdělení | Test pro podíl u jednoho výběru |

Analýza kontingenčních tabulek |

Testování nezávislosti (Pearsonův chí-kvadrát test) | Test hypotézy o symetrii – McNemarův test |

Fisherův exaktní test | Testy o rozdělení náhodné veličiny |

Chí-kvadrát test dobré shody |

Literatura |

Základy korelační analýzy |

Výstupy z výukové jednotky | Úvod | Pearsonův korelační koeficient |

Výpočet Pearsonova korelačního koeficientu | Interval spolehlivosti pro Pearsonův korelační koeficient | Test hypotézy o nulové korelaci dvou náhodných veličin |

Spearmanův korelační koeficient | Literatura |

Řešené příklady |

Aplikovaná analýza přežití | Biostatistika pro matematickou biologii |

Spearmanův korelační koeficient

Zatímco první situaci na obrázku 3 lze řešit rozdělením souboru na dva a následným výpočtem korelačního koeficientu v obou podsouborech, v situaci odpovídající grafu vpravo nahoře nemá smysl Pearsonův korelační koeficient počítat vůbec, neboť ten odráží pouze lineární závislost. Rozšíření směrem k hodnocení určitých forem nelineární závislosti představuje tzv. Spearmanův korelační koeficient (Spearman rank-correlation coefficient). Jedná se o neparametrický korelační koeficient, který je robustní vůči odlehlým hodnotám a obecně odchylkám od normality, neboť stejně jako řada dalších neparametrických metod pracuje pouze s pořadími pozorovaných hodnot. Na rozdíl od Pearsonova koeficientu korelace, který popisuje lineární vztah veličin a , Spearmanův koeficient korelace popisuje, jak dobře vztah veličin a odpovídá monotónní funkci, která může být samozřejmě nelineární.

Při výpočtu opět vycházíme z realizace dvourozměrného náhodného vektoru o rozsahu , tedy dvojic pozorovaných hodnot náhodných veličin a pro subjektů. Dále definujme číslo jako pořadí hodnoty v rámci vzestupně uspořádaných hodnot , číslo jako pořadí hodnoty v rámci vzestupně uspořádaných hodnot , čísla a jako průměry hodnot , respektive (tedy jako průměrná pořadí), a čísla a jako odpovídající směrodatné odchylky. Spearmanův korelační koeficient, označme ho , pak vypočítáme pomocí vzorce

(16)

což není nic jiného než vzorec pro výběrový Pearsonův korelační koeficient počítaný na pořadích pozorovaných hodnot. Hodnoty se pohybují stejně jako v případě koeficientu v rozmezí od -1 do 1. Hodnot kolem nuly nabývá Spearmanův korelační koeficient v případě, že pořadí hodnot a jsou náhodně zpřeházená a mezi sledovanými veličinami není žádný vztah. Naopak hodnot -1 a 1 nabývá Spearmanův korelační koeficient v případě, že jedna z veličin je monotónní funkcí druhé veličiny.

Výpočetní alternativou ke vzorci (16) je výpočet založený na diferencích pořadí pozorovaných hodnot, které definujeme jako . Hodnotu Spearmanova korelační koeficient pak odhadneme pomocí vztahu

(17)

Tento výpočet platí přesně pouze pro neopakovaná pozorování, což znamená, že je citlivý na opakující se hodnoty, které vedou k průměrování pořadí. Vyskytuje-li se mezi hodnotami , respektive , množství shodných hodnot, je vhodnější použít k výpočtu Spearmanova korelačního koeficientu definiční vztah (16).

Příklad 4. Pro srovnání s hodnotou = 0,64 vypočtenou v příkladu 1 odhadneme korelaci výšky a hmotnosti studentů biostatistiky také pomocí Spearmanova koeficientu korelace. Hodnoty potřebné k výpočtu jsou uvedeny v tabulce 2. Vzhledem k přítomnosti opakovaných hodnot u výšky i hmotnosti vypočteme nejprve Spearmanův korelační koeficient s použitím vzorce (16):

(18)

Dále vypočteme hodnotu i pomocí vztahu (17). V tomto případě dosadíme hodnoty z tabulky 2 následovně:

(19)

Je vidět, že v tomto případě dávají oba výpočty koeficientu velmi podobné výsledky, které odpovídají střední korelaci mezi výškou a hmotností. Oba výsledky se však liší od původně vypočtené hodnoty = 0,64. Důvodem jsou dvě pozorování odpovídající hmotnosti 90 kg, které úplně nekorespondují se zbytkem souboru (viz obrázek 1). V tomto případě, kdy máme velmi limitovanou velikost výběrového souboru, je tedy lepší dát přednost neparametrické variantě, tedy hodnotě Spearmanova koeficientu korelace.

Tabulka 2: Hodnoty pro výpočet Spearmanova koeficientu korelace výšky a hmotnosti studentů.

Konstrukce intervalu spolehlivosti i test nulové hypotézy probíhá pro Spearmanův korelační koeficient stejně jako pro koeficient Pearsonův. Co se týče konstrukce intervalu spolehlivosti, výběrové rozdělení je pro výběry o velikosti alespoň 10 stejné jako výběrové rozdělení . Pro větší vzorky, kdy je velikost souboru alespoň 30, je pak možné použít pro ověření nulové hypotézy = 0 stejnou testovou statistiku jako v případě danou vztahem (13). Pro zamítnutí pak platí také stejná pravidla jako pro koeficient .

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity