Slovník | Vyhledávání | Mapa webu
 
Aplikovaná analýza klinických a biologických datBiostatistika pro matematickou biologii Základy korelační analýzy Pearsonův korelační koeficient Test hypotézy o nulové korelaci dvou náhodných veličin

Logo Matematická biologie

Test hypotézy o nulové korelaci dvou náhodných veličin

I v případě malého výběrového souboru, jaký byl použit např. v příkladech 11.1 a 11.2, je logické klást si otázku, zda je či není korelace dvou sledovaných veličin nulová. Tato situace vede na testování následujících hypotéz:

(11.11)

Pro testování je nezbytný předpoklad realizace dvourozměrného náhodného vektoru o rozsahu n z normálního rozdělení, což znamená, že máme k dispozici náhodný vektor

(11.12)

Za platnosti nulové hypotézy pak má statistika

(11.13)

Studentovo t rozdělení pravděpodobnosti s n – 2 stupni volnosti. Pro oboustrannou alternativu zamítáme nulovou hypotézu na hladině významnosti α = 0,05, když hodnota testové statistiky přesáhne v absolutní hodnotě kvantil . Je třeba poznamenat, že testovou statistiku T nelze použít pro testování obecné hypotézy , neboť pro r různé od nuly nemá testová statistika Studentovo t rozdělení. Postup pro testování hypotézy lze najít např. v [3].

Příklad 11.3. Provedení testu o nulové korelaci dvou náhodných veličin opět demonstrujeme na datech výšky a hmotnosti studentů biostatistiky. Realizace testové statistiky dané vztahem (11.13) je následující

(11.14)

Srovnáme-li výslednou hodnotu testové statistiky t s kvantilem Studentova t rozdělení příslušným hladině významnosti α = 0,05, tedy provedeme-li srovnání

(11.15)

zamítáme H0 o tom, že mezi výškou a hmotností studentů biostatistiky je nulová korelace.

Jak bylo uvedeno výše, Pearsonův korelační koeficient kvantifikuje míru lineárního vztahu mezi náhodnými veličinami X a Y. Jeho výpočet je tedy naprosto nevhodný v situacích, kdy se o lineární vztah mezi X a Y nejedná. Obrázek 11.3 ukazuje čtyři situace, kdy výpočet výběrového Pearsonova korelačního koeficientu nemá smysl, respektive kdy může být jeho výpočet z hlediska interpretace zavádějící. Graf vlevo nahoře znázorňuje situaci, kdy výběrový soubor obsahuje dvě skupiny subjektů s odlišnými hodnotami náhodných veličin X i Y. Ve chvíli, kdy si tohoto nejsme vědomi, výpočet výběrového Pearsonova korelačního koeficientu indikuje silnou korelaci X a Y (r = 0,84), která je dokonce na daném souboru vysoce statisticky významná (p < 0,001). Tento výsledek je však statistický artefakt a ve skutečnosti není relevantní. Ideální by v tomto případě bylo soubor rozdělit a kvantifikovat korelaci v obou podsouborech zvlášť (podle obrázku je korelace X a Y v podsouborech naopak velmi malá). Graf vpravo nahoře ukazuje situaci, kdy je mezi veličinami X a Y nelineární vztah. Také zde je výsledný korelační koeficient (r = 0,58) relativně vysoký, statisticky významný a zároveň neodpovídá skutečnosti. Vlevo dole pak vidíme, jaký vliv má odlehlá hodnota v případě dvou nezávislých (a tedy i nekorelovaných) veličin X a Y. Vzhledem k nezávislosti bychom čekali realizaci r kolem 0, nicméně zde vidíme výsledné r rovno 0,36, opět statisticky významné (p = 0,009). Konečně, graf vpravo dole ukazuje vliv velikosti výběrového souboru na statistickou významnost korelačního koeficientu. V tomto případě je korelace mezi veličinami X a Y velmi slabá až žádná (r = 0,09), nicméně velikost výběrového souboru je tak velká (n = 500), že statistický test indikuje statisticky významný rozdíl r od hodnoty 0. Toto je klasický příklad rozporu mezi statistickou a praktickou významností výsledku, kdy je nezbytné kromě statistiky do výsledné interpretace zapojit i znalost dané problematiky. Všechny čtyři problematické případy lze velmi dobře odhalit s použitím bodového grafu, který by měl být jedním z prvních kroků při hodnocení vzájemného vztahu dvou spojitých náhodných veličin.


Obr. 11.3: Problematické situace pro výpočet Pearsonova korelačního koeficientu.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity