Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení
V této části kapitoly odvodíme intervaly spolehlivosti jak pro oba parametry normálního rozdělení, μ a σ2, tak pro střední hodnotu rozdílu dvou náhodných veličin X a Y.
Konstrukce 100(1 – α)% intervalu spolehlivosti pro parametr μ
Mějme náhodný výběr X1,…, Xn z normálního rozdělení pravděpodobnosti, tedy předpokládejme, že platí Xi ~ N(μ,σ2), i = 1, ..., n. Nejprve budeme uvažovat situaci, kdy hodnotu σ2 známe. Úpravou vztahu (5.17) dosazením za Z s tím, že platí z1-α/2 = – zα/2, dostaneme
|
(5.18) |
Naším cílem je interval spolehlivosti pro µ, upravíme tedy vzorec tak, abychom µ mezi matematickými znaménky větší nebo rovno osamostatnili. Úpravou dostáváme
|
(5.19) |
Vidíme, že jsme s pomocí pravděpodobnosti a známých kvantit vypočítali dolní a horní mez, které zdola a shora omezují neznámý parametr µ. Správně bychom řekli, že 100(1 – α)% interval spolehlivosti představuje oblast, která s pravděpodobností 1 – α pokrývá neznámý parametr µ. 100(1 – α)% interval spolehlivosti pro parametr μ má tedy tvar
(5.20) |
Výraz jsme již dříve definovali jako standardní chybu výběrového průměru (viz vzorec 5.14), proto 100(1 – α)% interval spolehlivosti pro parametr μ můžeme ještě vyjádřit v alternativní formě jako
100(1 – α)% interval spolehlivosti pro
|
(5.21) |
Výše uvedené jsme odvozovali za předpokladu, že známe přesnou hodnotu parametru σ2, což je však z praktického hlediska značně omezující (reálným příkladem však může být intervalový odhad střední hodnoty pro data měřená přístrojem s kalibrovanou a tudíž známou přesností). Ve chvíli, kdy neznáme hodnotu parametru σ2, musíme pro konstrukci intervalu spolehlivosti použít jinou statistiku než Z, s jiným rozdělením pravděpodobnosti. Logické by bylo místo směrodatné odchylky, σ, použít výběrovou směrodatnou odchylku, s, nicméně tato náhrada není úplně jednoduchá, nejedná se o pouhé dosazení s za σ. Pomůžeme si vztahem, který definuje statistiku se Studentovým t rozdělením. Nejprve pomocí s2 vytvoříme pomocnou statistiku K s chí-kvadrát rozdělením pravděpodobnosti (s n – 1 stupni volnosti):
|
(5.22) |
Tuto statistiku pak spolu se statistikou Z se standardizovaným normálním rozdělením použijeme pro vytvoření statistiky T se Studentovým t rozdělením:
|
(5.23) |
Vidíme, že statistika T vypadá stejně jako statistika Z, jen namísto směrodatné odchylky, σ, obsahuje výběrovou směrodatnou odchylku, s. To je přesně to, čeho jsme chtěli dosáhnout. Je však důležité si uvědomit, že statistika T má jiné rozdělení pravděpodobnosti než Z, tedy i jinou kvantilovou funkci. V souladu s (5.18) pro statistiku T platí
|
(5.24) |
kde tα/2(n – 1) a t1-α/2(n – 1) jsou 100(α/2)%, respektive 100(1 – α/2)%, kvantily Studentova t rozdělení s n – 1 stupni volnosti. Stejnými úpravami jako v případě intervalu spolehlivosti pro parametr µ při známém σ2 dostaneme 100(1 – α)% interval spolehlivosti pro parametr μ při neznámém σ2 ve tvaru
|
(5.25) |
Příklad 5.2. Chceme sestrojit 95% interval spolehlivosti pro střední hodnotu systolického tlaku studentů vysokých škol. Na vzorku n = 100 náhodně vybraných studentů byl výběrový průměr systolického tlaku roven hodnotě 123,4 mm Hg s výběrovou směrodatnou odchylkou s = 14,0 mm Hg. Kromě těchto hodnot je třeba k výpočtu 95% intervalu spolehlivosti ještě hodnota kvantilu t rozdělení příslušného hladině α = 0,05 a n – 1 = 99 stupňům volnosti. V tabulkách nebo příslušném software najdeme, že t0,975(99) = 1,98. Dosazením do vzorce (5.25) získáme
|
(5.26) |
což znamená, že 95% intervalem spolehlivosti pro střední hodnotu systolického tlaku studentů vysokých škol je interval (120,6 mm Hg; 126,2 mm Hg). Můžeme tedy říci, že s pravděpodobností 95 % interval (120,6 mm Hg; 126,2 mm Hg) pokrývá neznámou střední hodnotu systolického tlaku studentů vysokých škol.
Konstrukce 100(1 – α)% intervalu spolehlivosti pro rozdíl parametrů μ1 a μ2
Velmi často nás zajímá odhad střední hodnoty sledované veličiny u dvou skupin subjektů, kdy tím, o co nám jde nejvíce, je rozdíl těchto dvou středních hodnot. Snažíme se totiž zjistit, jestli se sledovaný znak chová stejně u jedné i u druhé skupiny. Tuto situaci reprezentujeme dvěma navzájem nezávislými náhodnými veličinami, X1 a X2, u kterých předpokládáme normální rozdělení pravděpodobnosti, potažmo pak dvěma náhodnými výběry, X11,…, X1n1, kde X1i ~ N(μ1,σ12), a X21,…, X2n2, kde X2j ~ N(μ2,σ22). Z vlastností normálního rozdělení plyne, že i rozdíl průměrů náhodných veličin X1 a X2 má normální rozdělení pravděpodobnosti s tím, že platí
|
(5.27) |
V případě, že známe hodnoty parametrů σ1 a σ2, provedeme standardizaci náhodné veličiny na veličinu Z a následně odvodíme 100(1 – α)% interval spolehlivosti naprosto stejným postupem jako při odvození intervalu spolehlivosti pro jeden parametr µ. Výsledný 100(1 – α)% interval spolehlivosti pro rozdíl středních hodnot náhodných veličin X1 a X2 má tvar
|
(5.28) |
V případě, že neznáme hodnoty parametrů σ1 a σ2, si opět musíme pomoci statistikami, které mají chí-kvadrát rozdělení pravděpodobnosti a které nám pomohou se zbavit neznámých σ1 a σ2. Obdobně jako ve vztahu (5.22) tedy definujeme statistiky K1 a K2, které spolu se statistikou Z převedeme na statistiku T. Ta má opět Studentovo t rozdělení. Parametr t rozdělení, tedy počet stupňů volnosti, je však v obecném případě, kdy σ1 ≠ σ2, dán vztahem
|
(5.29) |
Budeme-li předpokládat rovnost obou směrodatných odchylek, tedy σ1 = σ2, je ν = n1 + n2 – 2. Odpovídajícími úpravami dostaneme 100(1 – α)% interval spolehlivosti pro rozdíl středních hodnot náhodných veličin X1 a X2 při neznámých hodnotách parametrů σ1 a σ2 ve tvaru
|
(5.30) |
Příklad 5.3. V průběhu experimentu sledujeme vliv typu chlazení okolních struktur (skupina 1 – žádné, skupina 2 – průplach vodou) na největší rozměr poškození tkáně slinivky břišní. Zajímá nás rozdíl v efektu obou typů chlazení a jeho 95% interval spolehlivosti. Popisné statistiky naměřené na obou vzorcích jsou dány v tabulce 5.1.
Tab. 5.1: Popisné statistiky poškození tkáně slinivky břišní u souborů 1 a 2.
Skupina | Počet | Výběrový průměr | Výběrová směrodatná odchylka | Směrodatná chyba |
1 |
||||
2 |
S použitím příslušného kvantilu Studentova t rozdělení, , a dosazením hodnot z tabulky 5.1 do vzorce (5.30) dostáváme
|
(5.31) |
což znamená, že 95% interval spolehlivosti pro rozdíl středních hodnot poškození tkáně slinivky břišní u skupin 1 a 2 je následující
(5.32) |
Konstrukce 100(1 – α)% intervalu spolehlivosti pro parametr σ2
Opět předpokládejme náhodný výběr X1,…, Xn z normálního rozdělení pravděpodobnosti, tedy Xi ~ N(μ,σ2), i = 1, ..., n. Pro konstrukci 100(1 – α)% intervalu spolehlivosti pro parametr σ2 použijeme statistiku K definovanou vztahem (5.22), která se řídí chí-kvadrát rozdělením. Pro statistiku K tedy platí
|
(5.33) |
kde je 100(α/2)procentní kvantil chí-kvadrát rozdělení s n – 1 stupni volnosti. S pomocí standardních matematických operací vzorec upravíme tak, abychom parametr σ2 mezi matematickými znaménky větší nebo rovno osamostatnili. Dostáváme tedy
|
(5.34) |
100(1 – α)% interval spolehlivosti pro parametr σ2 má tedy tvar
|
(5.35) |
Konstrukce 100(1 – α)% intervalu spolehlivosti pro podíl parametrů σ12 a σ22
Z praktického hlediska je užitečné uvažovat i o intervalu spolehlivosti pro podíl parametrů σ12 a σ22, který nám může posloužit k získání informace o tom, zda dva náhodné výběry z normálního rozdělení pravděpodobnosti vykazují podobnou variabilitu či nikoliv. Pokud interval spolehlivosti pro podíl parametrů σ12 a σ22 obsahuje číslo 1, tento fakt indikuje podobnou variabilitu obou souborů, pokud ale interval spolehlivosti číslo 1 neobsahuje, budou zřejmě oba parametry, σ12 a σ22, rozdílné.
Uvažujme opět dva náhodné výběry, X11,…, X1n1, kde X1i ~ N(μ1,σ12), a X21,…, X2n2, kde X2j ~ N(μ2,σ22). Pro sestrojení 100(1 – α)% intervalu spolehlivosti pro podíl parametrů σ12 a σ22 využíváme statistiku F s Fisherovým F rozdělením pravděpodobnosti (s n1 – 1 a n2 – 1 stupni volnosti) definovanou jako
|
(5.36) |
Obdobně jako v (5.17) pro statistiku F platí
|
(5.37) |
z čehož po dosazení za F a s pomocí jednoduchých úprav dostáváme 100(1 – α)% interval spolehlivosti pro podíl parametrů σ12 a σ22, jmenovitě pro podíl σ22/σ12 ve tvaru
|
(5.38) |
kde Fα/2(n1 – 1, n2 – 1) a F1-α/2(n1 – 1, n2 – 1) jsou 100(α/2)% a 100(1 – α/2)% kvantily Fisherova F rozdělení, které lze najít v tabulkách nebo specializovaném software.