Aplikovaná analýza klinických a biologických datBiostatistika pro matematickou biologii Bodové a intervalové odhady Intervalové odhady Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení

Analýza a management dat pro zdravotnické obory, Analýza klinických dat | Aplikovaná analýza přežití | Biostatistika pro matematickou biologii |

Úvod do biostatistiky |

Literatura |

Vztah pravděpodobnosti, statistiky a biostatistiky |

Data, jejich popis a vizualizace |

Výstupy z výukové jednotky | Typy dat | Význam popisu a vizualizace dat |

Popis a vizualizace kvalitativních dat | Popis a vizualizace kvantitativních dat |

Identifikace odlehlých hodnot | Literatura |

Náhodná veličina, rozdělení pravděpodobnosti a reálná data |

Literatura |

Bodové a intervalové odhady |

Vlastnosti výběrového průměru | Centrální limitní věta |

Intervalové odhady |

Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení | Interpretace intervalu spolehlivosti | Šířka intervalu spolehlivosti |

Úlohy k procvičení | Literatura |

Úvod do testování hypotéz |

Spojitost testování hypotéz s intervaly spolehlivosti | Statistická a praktická významnost | Faktory ovlivňující sílu testu | Problém násobného testování hypotéz |

Literatura |

Testování hypotéz o kvantitativních proměnných |

Výstupy z výukové jednotky | Postup statistického testování | Testy o parametrech jednoho rozdělení |

Testy o střední hodnotě při známém rozptylu (z-test pro jeden výběr) | Testy o střední hodnotě při neznámém rozptylu (t-test pro jeden výběr) | Neparametrický test pro jeden výběr (Wilcoxonův test) | Test o rozdílu párových (závislých) pozorování (párová t-test) |

Testy o parametrech dvou rozdělení |

Test o rozdílu středních hodnot dvou nezávislých výběrů při stejných rozptylech | Test o shodnosti (homogenitě) rozptylů dvou nezávislých výběrů (F-test) | Welchova korekce pro t-test při nestejných rozptylech | Neparametrický test pro dva výběry (Mannův-Whitneyho test) |

Úlohy k procvičení | Literatura |

Analýza rozptylu (ANOVA) |

Výstupy z výukové jednotky | Přínos analýzy rozptylu | Variabilita výběrových souborů a princip výpočtu | Předpoklady analýzy rozptylu a jejich ověření |

Hodnocení normality pozorovaných hodnot |

Neparametrická alternativa analýzy rozptylu-Kruskallův -Wallisův test | Úlohy k procvičení | Literatura |

Testování hypotéz o kvalitativních proměnných |

Výstupy z výukové jednotky | Úvod | Testování hypotéz o podílech |

Interval spolehlivosti pro parametr π binomického rozdělení | Test pro podíl u jednoho výběru |

Analýza kontingenčních tabulek |

Testování nezávislosti (Pearsonův chí-kvadrát test) | Test hypotézy o symetrii – McNemarův test |

Fisherův exaktní test | Testy o rozdělení náhodné veličiny |

Chí-kvadrát test dobré shody |

Úlohy k procvičení | Literatura |

Asociace ve čtyřpolní tabulce |

Základy korelační analýzy |

Výstupy z výukové jednotky | Úvod | Pearsonův korelační koeficient |

Výpočet Pearsonova korelačního koeficientu | Interval spolehlivosti pro Pearsonův korelační koeficient | Test hypotézy o nulové korelaci dvou náhodných veličin |

Spearmanův korelační koeficient | Úlohy k procvičení | Literatura |

Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení

V této části kapitoly odvodíme intervaly spolehlivosti jak pro oba parametry normálního rozdělení, μ a σ², tak pro střední hodnotu rozdílu dvou náhodných veličin X a Y.

Konstrukce 100(1 – α)% intervalu spolehlivosti pro parametr μ

Mějme náhodný výběr X₁,…, X_n z normálního rozdělení pravděpodobnosti, tedy předpokládejme, že platí X_i ~ N(μ,σ²), i = 1, ..., n. Nejprve budeme uvažovat situaci, kdy hodnotu σ² známe. Úpravou vztahu (5.17) dosazením za Z s tím, že platí z_1-_α/₂ = – z_α/₂, dostaneme

(5.18)

Naším cílem je interval spolehlivosti pro µ, upravíme tedy vzorec tak, abychom µ mezi matematickými znaménky větší nebo rovno osamostatnili. Úpravou dostáváme

(5.19)

Vidíme, že jsme s pomocí pravděpodobnosti a známých kvantit vypočítali dolní a horní mez, které zdola a shora omezují neznámý parametr µ. Správně bychom řekli, že 100(1 – α)% interval spolehlivosti představuje oblast, která s pravděpodobností 1 – α pokrývá neznámý parametr µ. 100(1 – α)% interval spolehlivosti pro parametr μ má tedy tvar

(5.20)

Výraz jsme již dříve definovali jako standardní chybu výběrového průměru (viz vzorec 5.14), proto 100(1 – α)% interval spolehlivosti pro parametr μ můžeme ještě vyjádřit v alternativní formě jako

100(1 – α)% interval spolehlivosti pro

(5.21)

Výše uvedené jsme odvozovali za předpokladu, že známe přesnou hodnotu parametru σ², což je však z praktického hlediska značně omezující (reálným příkladem však může být intervalový odhad střední hodnoty pro data měřená přístrojem s kalibrovanou a tudíž známou přesností). Ve chvíli, kdy neznáme hodnotu parametru σ², musíme pro konstrukci intervalu spolehlivosti použít jinou statistiku než Z, s jiným rozdělením pravděpodobnosti. Logické by bylo místo směrodatné odchylky, σ, použít výběrovou směrodatnou odchylku, s, nicméně tato náhrada není úplně jednoduchá, nejedná se o pouhé dosazení s za σ. Pomůžeme si vztahem, který definuje statistiku se Studentovým t rozdělením. Nejprve pomocí s² vytvoříme pomocnou statistiku K s chí-kvadrát rozdělením pravděpodobnosti (s n – 1 stupni volnosti):

(5.22)

Tuto statistiku pak spolu se statistikou Z se standardizovaným normálním rozdělením použijeme pro vytvoření statistiky T se Studentovým t rozdělením:

(5.23)

Vidíme, že statistika T vypadá stejně jako statistika Z, jen namísto směrodatné odchylky, σ, obsahuje výběrovou směrodatnou odchylku, s. To je přesně to, čeho jsme chtěli dosáhnout. Je však důležité si uvědomit, že statistika T má jiné rozdělení pravděpodobnosti než Z, tedy i jinou kvantilovou funkci. V souladu s (5.18) pro statistiku T platí

(5.24)

kde t_α_/2(n – 1) a t_1-_α_/2(n – 1) jsou 100(α/2)%, respektive 100(1 – α/2)%, kvantily Studentova t rozdělení s n – 1 stupni volnosti. Stejnými úpravami jako v případě intervalu spolehlivosti pro parametr µ při známém σ² dostaneme 100(1 – α)% interval spolehlivosti pro parametr μ při neznámém σ² ve tvaru

(5.25)

Příklad 5.2. Chceme sestrojit 95% interval spolehlivosti pro střední hodnotu systolického tlaku studentů vysokých škol. Na vzorku n = 100 náhodně vybraných studentů byl výběrový průměr systolického tlaku roven hodnotě 123,4 mm Hg s výběrovou směrodatnou odchylkou s = 14,0 mm Hg. Kromě těchto hodnot je třeba k výpočtu 95% intervalu spolehlivosti ještě hodnota kvantilu t rozdělení příslušného hladině α = 0,05 a n – 1 = 99 stupňům volnosti. V tabulkách nebo příslušném software najdeme, že t_0,975(99) = 1,98. Dosazením do vzorce (5.25) získáme

(5.26)

což znamená, že 95% intervalem spolehlivosti pro střední hodnotu systolického tlaku studentů vysokých škol je interval (120,6 mm Hg; 126,2 mm Hg). Můžeme tedy říci, že s pravděpodobností 95 % interval (120,6 mm Hg; 126,2 mm Hg) pokrývá neznámou střední hodnotu systolického tlaku studentů vysokých škol.

Konstrukce 100(1 – α)% intervalu spolehlivosti pro rozdíl parametrů μ₁ a μ₂

Velmi často nás zajímá odhad střední hodnoty sledované veličiny u dvou skupin subjektů, kdy tím, o co nám jde nejvíce, je rozdíl těchto dvou středních hodnot. Snažíme se totiž zjistit, jestli se sledovaný znak chová stejně u jedné i u druhé skupiny. Tuto situaci reprezentujeme dvěma navzájem nezávislými náhodnými veličinami, X₁ a X₂, u kterých předpokládáme normální rozdělení pravděpodobnosti, potažmo pak dvěma náhodnými výběry, X₁₁,…, X_1n₁, kde X₁_i ~ N(μ₁,σ₁²), a X₂₁,…, X_2n₂, kde X₂_j ~ N(μ₂,σ₂²). Z vlastností normálního rozdělení plyne, že i rozdíl průměrů náhodných veličin X₁ a X₂ má normální rozdělení pravděpodobnosti s tím, že platí

(5.27)

V případě, že známe hodnoty parametrů σ₁ a σ₂, provedeme standardizaci náhodné veličiny na veličinu Z a následně odvodíme 100(1 – α)% interval spolehlivosti naprosto stejným postupem jako při odvození intervalu spolehlivosti pro jeden parametr µ. Výsledný 100(1 – α)% interval spolehlivosti pro rozdíl středních hodnot náhodných veličin X₁ a X₂ má tvar

(5.28)

V případě, že neznáme hodnoty parametrů σ₁ a σ₂, si opět musíme pomoci statistikami, které mají chí-kvadrát rozdělení pravděpodobnosti a které nám pomohou se zbavit neznámých σ₁ a σ₂. Obdobně jako ve vztahu (5.22) tedy definujeme statistiky K₁ a K₂, které spolu se statistikou Z převedeme na statistiku T. Ta má opět Studentovo t rozdělení. Parametr t rozdělení, tedy počet stupňů volnosti, je však v obecném případě, kdy σ₁ ≠ σ₂, dán vztahem

(5.29)

Budeme-li předpokládat rovnost obou směrodatných odchylek, tedy σ₁ = σ₂, je ν = n₁ + n₂ – 2. Odpovídajícími úpravami dostaneme 100(1 – α)% interval spolehlivosti pro rozdíl středních hodnot náhodných veličin X₁ a X₂ při neznámých hodnotách parametrů σ₁ a σ₂ ve tvaru

(5.30)

Příklad 5.3. V průběhu experimentu sledujeme vliv typu chlazení okolních struktur (skupina 1 – žádné, skupina 2 – průplach vodou) na největší rozměr poškození tkáně slinivky břišní. Zajímá nás rozdíl v efektu obou typů chlazení a jeho 95% interval spolehlivosti. Popisné statistiky naměřené na obou vzorcích jsou dány v tabulce 5.1.

Tab. 5.1: Popisné statistiky poškození tkáně slinivky břišní u souborů 1 a 2.

Skupina	Počet	Výběrový průměr	Výběrová směrodatná odchylka	Směrodatná chyba
1
2

S použitím příslušného kvantilu Studentova t rozdělení, , a dosazením hodnot z tabulky 5.1 do vzorce (5.30) dostáváme

(5.31)

což znamená, že 95% interval spolehlivosti pro rozdíl středních hodnot poškození tkáně slinivky břišní u skupin 1 a 2 je následující

(5.32)

Konstrukce 100(1 – α)% intervalu spolehlivosti pro parametr σ²

Opět předpokládejme náhodný výběr X₁,…, X_n z normálního rozdělení pravděpodobnosti, tedy X_i ~ N(μ,σ²), i = 1, ..., n. Pro konstrukci 100(1 – α)% intervalu spolehlivosti pro parametr σ² použijeme statistiku K definovanou vztahem (5.22), která se řídí chí-kvadrát rozdělením. Pro statistiku K tedy platí

(5.33)

kde je 100(α/2)procentní kvantil chí-kvadrát rozdělení s n – 1 stupni volnosti. S pomocí standardních matematických operací vzorec upravíme tak, abychom parametr σ² mezi matematickými znaménky větší nebo rovno osamostatnili. Dostáváme tedy

(5.34)

100(1 – α)% interval spolehlivosti pro parametr σ² má tedy tvar

(5.35)

Konstrukce 100(1 – α)% intervalu spolehlivosti pro podíl parametrů σ₁² a σ₂²

Z praktického hlediska je užitečné uvažovat i o intervalu spolehlivosti pro podíl parametrů σ₁² a σ₂², který nám může posloužit k získání informace o tom, zda dva náhodné výběry z normálního rozdělení pravděpodobnosti vykazují podobnou variabilitu či nikoliv. Pokud interval spolehlivosti pro podíl parametrů σ₁² a σ₂² obsahuje číslo 1, tento fakt indikuje podobnou variabilitu obou souborů, pokud ale interval spolehlivosti číslo 1 neobsahuje, budou zřejmě oba parametry, σ₁² a σ₂², rozdílné.

Uvažujme opět dva náhodné výběry, X₁₁,…, X_1n₁, kde X₁_i ~ N(μ₁,σ₁²), a X₂₁,…, X_2n₂, kde X₂_j ~ N(μ₂,σ₂²). Pro sestrojení 100(1 – α)% intervalu spolehlivosti pro podíl parametrů σ₁² a σ₂² využíváme statistiku F s Fisherovým F rozdělením pravděpodobnosti (s n₁ – 1 a n₂ – 1 stupni volnosti) definovanou jako

(5.36)

Obdobně jako v (5.17) pro statistiku F platí

(5.37)

z čehož po dosazení za F a s pomocí jednoduchých úprav dostáváme 100(1 – α)% interval spolehlivosti pro podíl parametrů σ₁² a σ₂², jmenovitě pro podíl σ₂²/σ₁² ve tvaru

(5.38)

kde F_α_/2(n₁ – 1, n₂ – 1) a F_1-_α_/2(n₁ – 1, n₂ – 1) jsou 100(α/2)% a 100(1 – α/2)% kvantily Fisherova F rozdělení, které lze najít v tabulkách nebo specializovaném software.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity