
Test hypotézy o nulové korelaci dvou náhodných veličin
I v případě malého výběrového souboru, jaký byl použit např. v příkladech 1 a 2, je logické klást si otázku, zda je či není korelace dvou sledovaných veličin nulová. Tato situace vede na testování následujících hypotéz:
|
|
(11) |
Pro testování je nezbytný předpoklad realizace dvourozměrného náhodného vektoru o rozsahu n z normálního rozdělení, což znamená, že máme k dispozici náhodný vektor
|
|
(12) |
Za platnosti nulové hypotézy pak má statistika
|
(13) |
Studentovo t rozdělení pravděpodobnosti s stupni volnosti. Pro oboustrannou alternativu zamítáme nulovou hypotézu na hladině významnosti
= 0,05, když hodnota testové statistiky přesáhne v absolutní hodnotě kvantil
. Je třeba poznamenat, že testovou statistiku
nelze použít pro testování obecné hypotézy
, neboť pro r různé od nuly nemá testová statistika Studentovo
rozdělení. Postup pro testování hypotézy
lze najít např. v [3].
Příklad 3. Provedení testu o nulové korelaci dvou náhodných veličin opět demonstrujeme na datech výšky a hmotnosti studentů biostatistiky. Realizace testové statistiky dané vztahem (13) je následující
|
(14) |
Srovnáme-li výslednou hodnotu testové statistiky s kvantilem Studentova
rozdělení příslušným hladině významnosti
= 0,05, tedy provedeme-li srovnání
|
(15) |
zamítáme o tom, že mezi výškou a hmotností studentů biostatistiky je nulová korelace.
Jak bylo uvedeno výše, Pearsonův korelační koeficient kvantifikuje míru lineárního vztahu mezi náhodnými veličinami a
. Jeho výpočet je tedy naprosto nevhodný v situacích, kdy se o lineární vztah mezi
a
nejedná. Obrázek 3 ukazuje čtyři situace, kdy výpočet výběrového Pearsonova korelačního koeficientu nemá smysl, respektive kdy může být jeho výpočet z hlediska interpretace zavádějící. Graf vlevo nahoře znázorňuje situaci, kdy výběrový soubor obsahuje dvě skupiny subjektů s odlišnými hodnotami náhodných veličin
i
. Ve chvíli, kdy si tohoto nejsme vědomi, výpočet výběrového Pearsonova korelačního koeficientu indikuje silnou korelaci
a
(
= 0,84), která je dokonce na daném souboru vysoce statisticky významná (
). Tento výsledek je však statistický artefakt a ve skutečnosti není relevantní. Ideální by v tomto případě bylo soubor rozdělit a kvantifikovat korelaci v obou podsouborech zvlášť (podle obrázku je korelace
a
v podsouborech naopak velmi malá). Graf vpravo nahoře ukazuje situaci, kdy je mezi veličinami
a
nelineární vztah. Také zde je výsledný korelační koeficient (
= 0,58) relativně vysoký, statisticky významný a zároveň neodpovídá skutečnosti. Vlevo dole pak vidíme, jaký vliv má odlehlá hodnota v případě dvou nezávislých (a tedy i nekorelovaných) veličin
a
. Vzhledem k nezávislosti bychom čekali realizaci
kolem 0, nicméně zde vidíme výsledné
rovno 0,36, opět statisticky významné (
= 0,009). Konečně, graf vpravo dole ukazuje vliv velikosti výběrového souboru na statistickou významnost korelačního koeficientu. V tomto případě je korelace mezi veličinami
a
velmi slabá až žádná (
= 0,09), nicméně velikost výběrového souboru je tak velká (
= 500), že statistický test indikuje statisticky významný rozdíl
od hodnoty 0. Toto je klasický příklad rozporu mezi statistickou a praktickou významností výsledku, kdy je nezbytné kromě statistiky do výsledné interpretace zapojit i znalost dané problematiky. Všechny čtyři problematické případy lze velmi dobře odhalit s použitím bodového grafu, který by měl být jedním z prvních kroků při hodnocení vzájemného vztahu dvou spojitých náhodných veličin.
Obr. 3: Problematické situace pro výpočet Pearsonova korelačního koeficientu.