Aplikovaná analýza klinických a biologických datAnalýza a management dat pro zdravotnické obory, Analýza klinických dat Základy korelační analýzy Pearsonův korelační koeficient Test hypotézy o nulové korelaci dvou náhodných veličin

Analýza a management dat pro zdravotnické obory, Analýza klinických dat |

Úvod do statistické analýzy dat pro zdravotnické obory |

Literatura |

Data, jejich popis a vizualizace |

Výstupy z výukové jednotky | Typy dat | Význam popisu a vizualizace dat |

Popis a vizualizace kvalitativních dat | Popis a vizualizace kvantitativních dat |

Identifikace odlehlých hodnot | Literatura |

Náhodná veličina, rozdělení pravděpodobnosti a reálná data |

Literatura |

Bodové a intervalové odhady |

Výstupy z výukové jednotky | Nestranné odhady | Srovnání průměru a mediánu | Teoretické pozadí intervalových odhadů |

Vlastnosti výběrového průměru | Centrální limitní věta |

Intervalové odhady |

Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení | Interpretace intervalu spolehlivosti | Šířka intervalu spolehlivosti |

Literatura |

Úvod do testování hypotéz |

Spojitost testování hypotéz s intervaly spolehlivosti | Statistická a praktická významnost | Faktory ovlivňující sílu testu |

Literatura |

Testování hypotéz o kvantitativních proměnných |

Výstupy z výukové jednotky | Postup statistického testování | Testy o parametrech jednoho rozdělení |

Test o střední hodnotě při známém rozptylu (z-test pro jeden výběr) | Test o střední hodnotě při neznámém rozptylu (t-test pro jeden výběr) | Neparametrický test pro jeden výběr (Wilcoxonův test) | Test o rozdílu párových (závislých) pozorování (párový t-test) |

Testy o parametrech dvou rozdělení |

Test o rozdílu středních hodnot dvou nezávislých výběrů při stejných rozptylech (t-test pro dva | Test o shodnosti (homogenitě) rozptylů dvou nezávislých výběrů (F-test) | Neparametrický test pro dva výběry (Mannův-Whitneyho test) | Literatura |

Analýza rozptylu (ANOVA) |

Výstupy z výukové jednotky | Přínos analýzy rozptylu | Variabilita výběrových souborů a princip výpočtu | Předpoklady analýzy rozptylu a jejich ověření |

Hodnocení normality pozorovaných hodnot |

Neparametrická alternativa analýzy rozptylu – Kruskalův-Wallisův test | Literatura |

Testování hypotéz o kvalitativních proměnných |

Výstupy z výukové jednotky | Úvod | Testování hypotéz o podílech |

Interval spolehlivosti pro parametr π binomického rozdělení | Test pro podíl u jednoho výběru |

Analýza kontingenčních tabulek |

Testování nezávislosti (Pearsonův chí-kvadrát test) | Test hypotézy o symetrii – McNemarův test |

Fisherův exaktní test | Testy o rozdělení náhodné veličiny |

Chí-kvadrát test dobré shody |

Literatura |

Základy korelační analýzy |

Výstupy z výukové jednotky | Úvod | Pearsonův korelační koeficient |

Výpočet Pearsonova korelačního koeficientu | Interval spolehlivosti pro Pearsonův korelační koeficient | Test hypotézy o nulové korelaci dvou náhodných veličin |

Spearmanův korelační koeficient | Literatura |

Řešené příklady |

Aplikovaná analýza přežití | Biostatistika pro matematickou biologii |

Test hypotézy o nulové korelaci dvou náhodných veličin

I v případě malého výběrového souboru, jaký byl použit např. v příkladech 1 a 2, je logické klást si otázku, zda je či není korelace dvou sledovaných veličin nulová. Tato situace vede na testování následujících hypotéz:

(11)

Pro testování je nezbytný předpoklad realizace dvourozměrného náhodného vektoru o rozsahu n z normálního rozdělení, což znamená, že máme k dispozici náhodný vektor

(12)

Za platnosti nulové hypotézy pak má statistika

(13)

Studentovo t rozdělení pravděpodobnosti s stupni volnosti. Pro oboustrannou alternativu zamítáme nulovou hypotézu na hladině významnosti = 0,05, když hodnota testové statistiky přesáhne v absolutní hodnotě kvantil . Je třeba poznamenat, že testovou statistiku nelze použít pro testování obecné hypotézy , neboť pro r různé od nuly nemá testová statistika Studentovo rozdělení. Postup pro testování hypotézy lze najít např. v [3].

Příklad 3. Provedení testu o nulové korelaci dvou náhodných veličin opět demonstrujeme na datech výšky a hmotnosti studentů biostatistiky. Realizace testové statistiky dané vztahem (13) je následující

(14)

Srovnáme-li výslednou hodnotu testové statistiky s kvantilem Studentova rozdělení příslušným hladině významnosti = 0,05, tedy provedeme-li srovnání

(15)

zamítáme o tom, že mezi výškou a hmotností studentů biostatistiky je nulová korelace.

Jak bylo uvedeno výše, Pearsonův korelační koeficient kvantifikuje míru lineárního vztahu mezi náhodnými veličinami a . Jeho výpočet je tedy naprosto nevhodný v situacích, kdy se o lineární vztah mezi a nejedná. Obrázek 3 ukazuje čtyři situace, kdy výpočet výběrového Pearsonova korelačního koeficientu nemá smysl, respektive kdy může být jeho výpočet z hlediska interpretace zavádějící. Graf vlevo nahoře znázorňuje situaci, kdy výběrový soubor obsahuje dvě skupiny subjektů s odlišnými hodnotami náhodných veličin i . Ve chvíli, kdy si tohoto nejsme vědomi, výpočet výběrového Pearsonova korelačního koeficientu indikuje silnou korelaci a (= 0,84), která je dokonce na daném souboru vysoce statisticky významná (). Tento výsledek je však statistický artefakt a ve skutečnosti není relevantní. Ideální by v tomto případě bylo soubor rozdělit a kvantifikovat korelaci v obou podsouborech zvlášť (podle obrázku je korelace a v podsouborech naopak velmi malá). Graf vpravo nahoře ukazuje situaci, kdy je mezi veličinami a nelineární vztah. Také zde je výsledný korelační koeficient ( = 0,58) relativně vysoký, statisticky významný a zároveň neodpovídá skutečnosti. Vlevo dole pak vidíme, jaký vliv má odlehlá hodnota v případě dvou nezávislých (a tedy i nekorelovaných) veličin a . Vzhledem k nezávislosti bychom čekali realizaci kolem 0, nicméně zde vidíme výsledné rovno 0,36, opět statisticky významné ( = 0,009). Konečně, graf vpravo dole ukazuje vliv velikosti výběrového souboru na statistickou významnost korelačního koeficientu. V tomto případě je korelace mezi veličinami a velmi slabá až žádná ( = 0,09), nicméně velikost výběrového souboru je tak velká ( = 500), že statistický test indikuje statisticky významný rozdíl od hodnoty 0. Toto je klasický příklad rozporu mezi statistickou a praktickou významností výsledku, kdy je nezbytné kromě statistiky do výsledné interpretace zapojit i znalost dané problematiky. Všechny čtyři problematické případy lze velmi dobře odhalit s použitím bodového grafu, který by měl být jedním z prvních kroků při hodnocení vzájemného vztahu dvou spojitých náhodných veličin.

Obr. 3: Problematické situace pro výpočet Pearsonova korelačního koeficientu.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity