Slovník | Vyhledávání | Mapa webu
 
Aplikovaná analýza klinických a biologických datAnalýza a management dat pro zdravotnické obory, Analýza klinických dat Základy korelační analýzy Pearsonův korelační koeficient Test hypotézy o nulové korelaci dvou náhodných veličin

Logo Matematická biologie

Test hypotézy o nulové korelaci dvou náhodných veličin

I v případě malého výběrového souboru, jaký byl použit např. v příkladech 1 a 2, je logické klást si otázku, zda je či není korelace dvou sledovaných veličin nulová. Tato situace vede na testování následujících hypotéz:

,

.

(11)

Pro testování je nezbytný předpoklad realizace dvourozměrného náhodného vektoru o rozsahu n z normálního rozdělení, což znamená, že máme k dispozici náhodný vektor

,

.

(12)

Za platnosti nulové hypotézy pak má statistika

(13)

Studentovo t rozdělení pravděpodobnosti s stupni volnosti. Pro oboustrannou alternativu zamítáme nulovou hypotézu na hladině významnosti = 0,05, když hodnota testové statistiky přesáhne v absolutní hodnotě kvantil . Je třeba poznamenat, že testovou statistiku nelze použít pro testování obecné hypotézy , neboť pro r různé od nuly nemá testová statistika Studentovo rozdělení. Postup pro testování hypotézy lze najít např. v [3].

 

Příklad 3. Provedení testu o nulové korelaci dvou náhodných veličin opět demonstrujeme na datech výšky a hmotnosti studentů biostatistiky. Realizace testové statistiky dané vztahem (13) je následující

.

(14)

Srovnáme-li výslednou hodnotu testové statistiky s kvantilem Studentova rozdělení příslušným hladině významnosti = 0,05, tedy provedeme-li srovnání

,

(15)

zamítáme o tom, že mezi výškou a hmotností studentů biostatistiky je nulová korelace.

Jak bylo uvedeno výše, Pearsonův korelační koeficient kvantifikuje míru lineárního vztahu mezi náhodnými veličinami   a . Jeho výpočet je tedy naprosto nevhodný v situacích, kdy se o lineární vztah mezi a nejedná. Obrázek 3 ukazuje čtyři situace, kdy výpočet výběrového Pearsonova korelačního koeficientu nemá smysl, respektive kdy může být jeho výpočet z hlediska interpretace zavádějící. Graf vlevo nahoře znázorňuje situaci, kdy výběrový soubor obsahuje dvě skupiny subjektů s odlišnými hodnotami náhodných veličin i . Ve chvíli, kdy si tohoto nejsme vědomi, výpočet výběrového Pearsonova korelačního koeficientu indikuje silnou korelaci a (= 0,84), která je dokonce na daném souboru vysoce statisticky významná (). Tento výsledek je však statistický artefakt a ve skutečnosti není relevantní. Ideální by v tomto případě bylo soubor rozdělit a kvantifikovat korelaci v obou podsouborech zvlášť (podle obrázku je korelace a v podsouborech naopak velmi malá). Graf vpravo nahoře ukazuje situaci, kdy je mezi veličinami a nelineární vztah. Také zde je výsledný korelační koeficient ( = 0,58) relativně vysoký, statisticky významný a zároveň neodpovídá skutečnosti. Vlevo dole pak vidíme, jaký vliv má odlehlá hodnota v případě dvou nezávislých (a tedy i nekorelovaných) veličin a . Vzhledem k nezávislosti bychom čekali realizaci kolem 0, nicméně zde vidíme výsledné rovno 0,36, opět statisticky významné ( = 0,009). Konečně, graf vpravo dole ukazuje vliv velikosti výběrového souboru na statistickou významnost korelačního koeficientu. V tomto případě je korelace mezi veličinami a velmi slabá až žádná ( = 0,09), nicméně velikost výběrového souboru je tak velká ( = 500), že statistický test indikuje statisticky významný rozdíl od hodnoty 0. Toto je klasický příklad rozporu mezi statistickou a praktickou významností výsledku, kdy je nezbytné kromě statistiky do výsledné interpretace zapojit i znalost dané problematiky. Všechny čtyři problematické případy lze velmi dobře odhalit s použitím bodového grafu, který by měl být jedním z prvních kroků při hodnocení vzájemného vztahu dvou spojitých náhodných veličin.

Obr. 3: Problematické situace pro výpočet Pearsonova korelačního koeficientu.

 
vytvořil Institut biostatistiky a analýz Masarykovy univerzity | | zpětné odkazy | validní XHTML 1.0 Strict