
Interval spolehlivosti pro Pearsonův korelační koeficient
Jako každou výběrovou statistiku je i výběrový Pearsonův korelační koeficient r vhodné doplnit 100(1 – α)% intervalem spolehlivosti, který nám dá informaci o variabilitě tohoto odhadu. Na rozdíl od výpočtu bodového odhadu, který lze vypočítat na datech z různých rozdělení, je však v případě, že chceme rozhodovat o vlastnostech Pearsonova korelačního koeficientu (např. konstruovat interval spolehlivosti pro r nebo testovat hypotézy o r), nutné učinit předpoklad o normalitě náhodných veličin X a Y. Jinými slovy, při výpočtu r předpokládáme realizaci dvourozměrného náhodného vektoru z dvourozměrného normálního rozdělení o rozsahu n. Dalším problémem při konstrukci intervalu spolehlivosti pro r je fakt, že výběrové rozdělení výběrového korelačního koeficientu není normální. Abychom byli schopni interval spolehlivosti zkonstruovat, je třeba použít transformaci na náhodnou veličinu W, přičemž transformace je následující:
|
(11.5) |
Lze ukázat, že náhodná veličina W má normální rozdělení s rozptylem přibližně , kde n je velikost výběrového souboru. Vzhledem k normalitě veličiny W má 100(1 – α)% interval spolehlivosti pro její střední hodnotu tvar
|
(11.6) |
kde z1-α/2 je příslušný kvantil standardizovaného normálního rozdělení. Výsledný 100(1 – α)% interval spolehlivosti pro r pak dostaneme zpětnou transformací ve tvaru
|
(11.7) |
Příklad 11.2. Navážeme na příklad 11.1, kde byl vypočítán výběrový korelační koeficient pro vztah výšky a hmotnosti studentů biostatistiky. Nyní pro r = 0,64 zkonstruujeme 95% interval spolehlivosti. Realizace transformované náhodné veličiny je následující:
(11.8) Interval spolehlivosti pro střední hodnotu náhodné veličiny W s α = 0,05 má tvar
(11.9) z čehož plyne výsledný 95% interval spolehlivosti pro výběrový korelační koeficient vztahu výšky a hmotnosti studentů biostatistiky
(11.10) Z výsledku vidíme, že 95% interval spolehlivosti je velmi široký, neboť připouští jak hodnoty odpovídající silné korelaci (r = 0,88), tak hodnoty odpovídající velmi slabé, nebo spíše žádné korelaci (r = 0,14). Zde je na vině zejména malý rozsah výběrového souboru, neboť je zřejmé, že na základě n = 13 pozorování je velmi obtížné dělat zásadní závěry ohledně vztahu dvou náhodných veličin.