Interval spolehlivosti pro Pearsonův korelační koeficient
Jako každou výběrovou statistiku je i výběrový Pearsonův korelační koeficient r vhodné doplnit intervalem spolehlivosti, který nám dá informaci o variabilitě tohoto odhadu. Na rozdíl od výpočtu bodového odhadu, který lze vypočítat na datech z různých rozdělení, je však v případě, že chceme rozhodovat o vlastnostech Pearsonova korelačního koeficientu (např. konstruovat interval spolehlivosti pro nebo testovat hypotézy o ), nutné učinit předpoklad o normalitě náhodných veličin a . Jinými slovy, při výpočtu předpokládáme realizaci dvourozměrného náhodného vektoru z dvourozměrného normálního rozdělení o rozsahu . Dalším problémem při konstrukci intervalu spolehlivosti pro je fakt, že výběrové rozdělení výběrového korelačního koeficientu není normální. Abychom byli schopni interval spolehlivosti zkonstruovat, je třeba použít transformaci na náhodnou veličinu , přičemž transformace je následující:
. |
(5) |
Lze ukázat, že náhodná veličina má normální rozdělení s rozptylem přibližně , kde je velikost výběrového souboru. Vzhledem k normalitě veličiny má interval spolehlivosti pro její střední hodnotu tvar
, |
(6) |
kde je příslušný kvantil standardizovaného normálního rozdělení. Výsledný interval spolehlivosti pro pak dostaneme zpětnou transformací ve tvaru
, |
(7) |
Příklad 2 . Navážeme na příklad 1, kde byl vypočítán výběrový korelační koeficient pro vztah výšky a hmotnosti studentů. Nyní pro = 0,64 zkonstruujeme 95% interval spolehlivosti. Realizace transformované náhodné veličiny je následující:
, |
(8) |
Interval spolehlivosti pro střední hodnotu náhodné veličiny s = 0,05 má tvar
, |
(9) |
z čehož plyne výsledný 95% interval spolehlivosti pro výběrový korelační koeficient vztahu výšky a hmotnosti studentů biostatistiky
. |
(10) |
Z výsledku vidíme, že 95% interval spolehlivosti je velmi široký, neboť připouští jak hodnoty odpovídající silné korelaci ( = 0,88), tak hodnoty odpovídající velmi slabé, nebo spíše žádné korelaci ( = 0,14). Zde je na vině zejména malý rozsah výběrového souboru, neboť je zřejmé, že na základě = 13 pozorování je velmi obtížné dělat zásadní závěry ohledně vztahu dvou náhodných veličin.