Slovník | Vyhledávání | Mapa webu
 
Aplikovaná analýza klinických a biologických datBiostatistika pro matematickou biologii Bodové a intervalové odhady Intervalové odhady Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení

Logo Matematická biologie

Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení

V této části kapitoly odvodíme intervaly spolehlivosti jak pro oba parametry normálního rozdělení, μ a σ2, tak pro střední hodnotu rozdílu dvou náhodných veličin X a Y.

 

Konstrukce 100(1 – α)% intervalu spolehlivosti pro parametr μ

Mějme náhodný výběr X1,…, Xn z normálního rozdělení pravděpodobnosti, tedy předpokládejme, že platí Xi ~ N(μ,σ2), i = 1, ..., n. Nejprve budeme uvažovat situaci, kdy hodnotu σ2 známe. Úpravou vztahu (5.17) dosazením za Z s tím, že platí z1-α/2 = – zα/2, dostaneme

(5.18)

Naším cílem je interval spolehlivosti pro µ, upravíme tedy vzorec tak, abychom µ mezi matematickými znaménky větší nebo rovno osamostatnili. Úpravou dostáváme

(5.19)

Vidíme, že jsme s pomocí pravděpodobnosti a známých kvantit vypočítali dolní a horní mez, které zdola a shora omezují neznámý parametr µ. Správně bychom řekli, že 100(1 – α)% interval spolehlivosti představuje oblast, která s pravděpodobností 1 – α pokrývá neznámý parametr µ. 100(1 – α)% interval spolehlivosti pro parametr μ má tedy tvar

(5.20)

Výraz  jsme již dříve definovali jako standardní chybu výběrového průměru (viz vzorec 5.14), proto 100(1 – α)% interval spolehlivosti pro parametr μ můžeme ještě vyjádřit v alternativní formě jako

100(1 – α)% interval spolehlivosti pro
(5.21)

Výše uvedené jsme odvozovali za předpokladu, že známe přesnou hodnotu parametru σ2, což je však z praktického hlediska značně omezující (reálným příkladem však může být intervalový odhad střední hodnoty pro data měřená přístrojem s kalibrovanou a tudíž známou přesností). Ve chvíli, kdy neznáme hodnotu parametru σ2, musíme pro konstrukci intervalu spolehlivosti použít jinou statistiku než Z, s jiným rozdělením pravděpodobnosti. Logické by bylo místo směrodatné odchylky, σ, použít výběrovou směrodatnou odchylku, s, nicméně tato náhrada není úplně jednoduchá, nejedná se o pouhé dosazení s za σ. Pomůžeme si vztahem, který definuje statistiku se Studentovým t rozdělením. Nejprve pomocí s2 vytvoříme pomocnou statistiku K s chí-kvadrát rozdělením pravděpodobnosti (s n – 1 stupni volnosti):

(5.22)

Tuto statistiku pak spolu se statistikou Z se standardizovaným normálním rozdělením použijeme pro vytvoření statistiky T se Studentovým t rozdělením:

(5.23)

Vidíme, že statistika T vypadá stejně jako statistika Z, jen namísto směrodatné odchylky, σ, obsahuje výběrovou směrodatnou odchylku, s. To je přesně to, čeho jsme chtěli dosáhnout. Je však důležité si uvědomit, že statistika T má jiné rozdělení pravděpodobnosti než Z, tedy i jinou kvantilovou funkci. V souladu s (5.18) pro statistiku T platí

(5.24)

kde tα/2(n – 1) a t1-α/2(n – 1) jsou 100(α/2)%, respektive 100(1 – α/2)%, kvantily Studentova t rozdělení s n – 1 stupni volnosti. Stejnými úpravami jako v případě intervalu spolehlivosti pro parametr µ při známém σ2 dostaneme 100(1 – α)% interval spolehlivosti pro parametr μ při neznámém σ2 ve tvaru

(5.25)

Příklad 5.2. Chceme sestrojit 95% interval spolehlivosti pro střední hodnotu systolického tlaku studentů vysokých škol. Na vzorku n = 100 náhodně vybraných studentů byl výběrový průměr systolického tlaku roven hodnotě 123,4 mm Hg s výběrovou směrodatnou odchylkou s = 14,0 mm Hg. Kromě těchto hodnot je třeba k výpočtu 95% intervalu spolehlivosti ještě hodnota kvantilu t rozdělení příslušného hladině α  = 0,05 a n – 1 = 99 stupňům volnosti. V tabulkách nebo příslušném software najdeme, že t0,975(99) = 1,98. Dosazením do vzorce (5.25) získáme

(5.26)

což znamená, že 95% intervalem spolehlivosti pro střední hodnotu systolického tlaku studentů vysokých škol je interval (120,6 mm Hg; 126,2 mm Hg). Můžeme tedy říci, že s pravděpodobností 95 % interval (120,6 mm Hg; 126,2 mm Hg) pokrývá neznámou střední hodnotu systolického tlaku studentů vysokých škol.

 

Konstrukce 100(1 – α)% intervalu spolehlivosti pro rozdíl parametrů μ1 a μ2

Velmi často nás zajímá odhad střední hodnoty sledované veličiny u dvou skupin subjektů, kdy tím, o co nám jde nejvíce, je rozdíl těchto dvou středních hodnot. Snažíme se totiž zjistit, jestli se sledovaný znak chová stejně u jedné i u druhé skupiny. Tuto situaci reprezentujeme dvěma navzájem nezávislými náhodnými veličinami, X1 a X2, u kterých předpokládáme normální rozdělení pravděpodobnosti, potažmo pak dvěma náhodnými výběry, X11,…, X1n1, kde X1i ~ N(μ1,σ12), a X21,…, X2n2, kde X2j ~ N(μ2,σ22). Z vlastností normálního rozdělení plyne, že i rozdíl průměrů náhodných veličin X1 a X2 má normální rozdělení pravděpodobnosti s tím, že platí

(5.27)

V případě, že známe hodnoty parametrů σ1 a σ2, provedeme standardizaci náhodné veličiny na veličinu Z a následně odvodíme 100(1 – α)% interval spolehlivosti naprosto stejným postupem jako při odvození intervalu spolehlivosti pro jeden parametr µ. Výsledný 100(1 – α)% interval spolehlivosti pro rozdíl středních hodnot náhodných veličin X1 a X2 má tvar

(5.28)

V případě, že neznáme hodnoty parametrů σ1 a σ2, si opět musíme pomoci statistikami, které mají chí-kvadrát rozdělení pravděpodobnosti a které nám pomohou se zbavit neznámých σ1 a σ2. Obdobně jako ve vztahu (5.22) tedy definujeme statistiky K1 a K2, které spolu se statistikou Z převedeme na statistiku T. Ta má opět Studentovo t rozdělení. Parametr t rozdělení, tedy počet stupňů volnosti, je však v obecném případě, kdy σ1σ2, dán vztahem

(5.29)

Budeme-li předpokládat rovnost obou směrodatných odchylek, tedy σ1 = σ2, je ν = n1 + n2 – 2. Odpovídajícími úpravami dostaneme 100(1 – α)% interval spolehlivosti pro rozdíl středních hodnot náhodných veličin X1 a X2 při neznámých hodnotách parametrů σ1 a σ2 ve tvaru

(5.30)

 

Příklad 5.3. V průběhu experimentu sledujeme vliv typu chlazení okolních struktur (skupina 1 – žádné, skupina 2 – průplach vodou) na největší rozměr poškození tkáně slinivky břišní. Zajímá nás rozdíl v efektu obou typů chlazení a jeho 95% interval spolehlivosti. Popisné statistiky naměřené na obou vzorcích jsou dány v tabulce 5.1.

Tab. 5.1: Popisné statistiky poškození tkáně slinivky břišní u souborů 1 a 2.

Skupina Počet Výběrový průměr Výběrová směrodatná odchylka Směrodatná chyba

1

2

S použitím příslušného kvantilu Studentova t rozdělení, , a dosazením hodnot z tabulky 5.1 do vzorce (5.30) dostáváme

(5.31)

což znamená, že 95% interval spolehlivosti pro rozdíl středních hodnot poškození tkáně slinivky břišní u skupin 1 a 2 je následující

(5.32)

 

Konstrukce 100(1 – α)% intervalu spolehlivosti pro parametr σ2

Opět předpokládejme náhodný výběr X1,…, Xn z normálního rozdělení pravděpodobnosti, tedy Xi ~ N(μ,σ2), i = 1, ..., n. Pro konstrukci 100(1 – α)% intervalu spolehlivosti pro parametr σ2 použijeme statistiku K definovanou vztahem (5.22), která se řídí chí-kvadrát rozdělením. Pro statistiku K tedy platí

(5.33)

kde je 100(α/2)procentní kvantil chí-kvadrát rozdělení s n – 1 stupni volnosti. S pomocí standardních matematických operací vzorec upravíme tak, abychom parametr σ2 mezi matematickými znaménky větší nebo rovno osamostatnili. Dostáváme tedy

(5.34)

100(1 – α)% interval spolehlivosti pro parametr σ2 má tedy tvar

(5.35)

 

Konstrukce 100(1 – α)% intervalu spolehlivosti pro podíl parametrů σ12 a σ22

Z praktického hlediska je užitečné uvažovat i o intervalu spolehlivosti pro podíl parametrů σ12 a σ22, který nám může posloužit k získání informace o tom, zda dva náhodné výběry z normálního rozdělení pravděpodobnosti vykazují podobnou variabilitu či nikoliv. Pokud interval spolehlivosti pro podíl parametrů σ12 a σ22 obsahuje číslo 1, tento fakt indikuje podobnou variabilitu obou souborů, pokud ale interval spolehlivosti číslo 1 neobsahuje, budou zřejmě oba parametry, σ12 a σ22, rozdílné.

Uvažujme opět dva náhodné výběry, X11,…, X1n1, kde X1i ~ N(μ1,σ12), a X21,…, X2n2, kde X2j ~ N(μ2,σ22). Pro sestrojení 100(1 – α)% intervalu spolehlivosti pro podíl parametrů σ12 a σ22 využíváme statistiku F s Fisherovým F rozdělením pravděpodobnosti (s n1 – 1 a n2 – 1 stupni volnosti) definovanou jako

(5.36)

Obdobně jako v (5.17) pro statistiku F platí

(5.37)

z čehož po dosazení za F a s pomocí jednoduchých úprav dostáváme 100(1 – α)% interval spolehlivosti pro podíl parametrů σ12 a σ22, jmenovitě pro podíl σ22/σ12 ve tvaru

(5.38)

kde Fα/2(n1 – 1, n2 – 1) a F1-α/2(n1 – 1, n2 – 1) jsou 100(α/2)% a 100(1 – α/2)% kvantily Fisherova F rozdělení, které lze najít v tabulkách nebo specializovaném software.

 

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity