Aplikovaná analýza klinických a biologických datAnalýza a management dat pro zdravotnické obory, Analýza klinických dat Testování hypotéz o kvalitativních proměnných Testy o rozdělení náhodné veličiny Chí-kvadrát test dobré shody

Analýza a management dat pro zdravotnické obory, Analýza klinických dat |

Úvod do statistické analýzy dat pro zdravotnické obory |

Literatura |

Data, jejich popis a vizualizace |

Výstupy z výukové jednotky | Typy dat | Význam popisu a vizualizace dat |

Popis a vizualizace kvalitativních dat | Popis a vizualizace kvantitativních dat |

Identifikace odlehlých hodnot | Literatura |

Náhodná veličina, rozdělení pravděpodobnosti a reálná data |

Literatura |

Bodové a intervalové odhady |

Výstupy z výukové jednotky | Nestranné odhady | Srovnání průměru a mediánu | Teoretické pozadí intervalových odhadů |

Vlastnosti výběrového průměru | Centrální limitní věta |

Intervalové odhady |

Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení | Interpretace intervalu spolehlivosti | Šířka intervalu spolehlivosti |

Literatura |

Úvod do testování hypotéz |

Spojitost testování hypotéz s intervaly spolehlivosti | Statistická a praktická významnost | Faktory ovlivňující sílu testu |

Literatura |

Testování hypotéz o kvantitativních proměnných |

Výstupy z výukové jednotky | Postup statistického testování | Testy o parametrech jednoho rozdělení |

Test o střední hodnotě při známém rozptylu (z-test pro jeden výběr) | Test o střední hodnotě při neznámém rozptylu (t-test pro jeden výběr) | Neparametrický test pro jeden výběr (Wilcoxonův test) | Test o rozdílu párových (závislých) pozorování (párový t-test) |

Testy o parametrech dvou rozdělení |

Test o rozdílu středních hodnot dvou nezávislých výběrů při stejných rozptylech (t-test pro dva | Test o shodnosti (homogenitě) rozptylů dvou nezávislých výběrů (F-test) | Neparametrický test pro dva výběry (Mannův-Whitneyho test) | Literatura |

Analýza rozptylu (ANOVA) |

Výstupy z výukové jednotky | Přínos analýzy rozptylu | Variabilita výběrových souborů a princip výpočtu | Předpoklady analýzy rozptylu a jejich ověření |

Hodnocení normality pozorovaných hodnot |

Neparametrická alternativa analýzy rozptylu – Kruskalův-Wallisův test | Literatura |

Testování hypotéz o kvalitativních proměnných |

Výstupy z výukové jednotky | Úvod | Testování hypotéz o podílech |

Interval spolehlivosti pro parametr π binomického rozdělení | Test pro podíl u jednoho výběru |

Analýza kontingenčních tabulek |

Testování nezávislosti (Pearsonův chí-kvadrát test) | Test hypotézy o symetrii – McNemarův test |

Fisherův exaktní test | Testy o rozdělení náhodné veličiny |

Chí-kvadrát test dobré shody |

Literatura |

Základy korelační analýzy |

Výstupy z výukové jednotky | Úvod | Pearsonův korelační koeficient |

Výpočet Pearsonova korelačního koeficientu | Interval spolehlivosti pro Pearsonův korelační koeficient | Test hypotézy o nulové korelaci dvou náhodných veličin |

Spearmanův korelační koeficient | Literatura |

Řešené příklady |

Aplikovaná analýza přežití | Biostatistika pro matematickou biologii |

Chí-kvadrát test dobré shody

Stejně jako Pearsonův test je i chí-kvadrát test dobré shody primárně určen pro hodnocení diskrétních náhodných veličin, kdy předpokládáme, že náhodná veličina nabývá různých hodnot , každé s pravděpodobností . Zároveň platí, že . Pokud je uvažovaný pravděpodobnostní model správný, pak by se v případě realizace náhodného výběru o rozsahu měl počet pozorování v jednotlivých variantách, tzn. pozorované četnosti , blížit hodnotě očekávaných četností . Samozřejmě platí . V případě, že náhodná veličina má předpokládané rozdělení pravděpodobnosti ( platí), má statistika chí-kvadrát rozdělení s stupni volnosti, tedy platí

(25)

Nulovou hypotézu o shodě rozdělení veličiny s předpokládaným teoretickým rozdělením zamítáme na hladině významnosti , když realizace testové statistiky překročí příslušný kvantil chí-kvadrát rozdělení, tedy když . Často jsme v situaci, kdy chceme ověřit daný typ rozdělení, ale nemáme žádnou apriorní znalost o parametrech tohoto rozdělení. Ve chvíli, kdy nulovou hypotézou specifikujeme pouze typ rozdělení, ale ne jeho parametry, pak musíme tyto parametry odhadnout z pozorovaných hodnot. Forma testové statistiky se v takovém případě nemění, nicméně za každý takto odhadnutý parametr musíme snížit počet stupňů volnosti testové statistiky o 1.

Chí-kvadrát test dobré shody lze použít i pro spojité náhodné veličiny. Ty sice nenabývají spočetně mnoha hodnot, ale v případě, že rozdělíme obor možných hodnot náhodné veličiny do disjunktních intervalů, lze i v tomto případě test dobré shody použít pro testování shody rozdělení. Tento postup lze nejlépe demonstrovat příkladem.

Příklad 5. U pacientů s nádorem kůže sledujeme jejich věk. Pro následné použití parametrických testů chceme na hladině významnosti = 0,05 ověřit, zda lze věk těchto pacientů považovat za náhodnou veličinu s normálním rozdělením pravděpodobnosti. Nemáme však žádnou apriorní informaci o parametrech normálního rozdělení, proto potenciální hodnoty a odhadneme z dat. Na základě dat = 1536 pacientů byl vypočten věkový průměr 56,2 let s výběrovým rozptylem 182,4. Pomocí chí-kvadrát testu dobré shody tedy ověřujeme hypotézu, že věk pacientů s nádorem kůže pochází z rozdělení ( = 56,2, = 182,4). Pozorované a očekávané četnosti pacientů dle jednotlivých věkových kategorií jsou sumarizovány v tabulce 7.

Tabulka 7: Pozorované a očekávané četnosti pacientů s nádorem dle věkových kategorií.

Dosadíme-li četnosti z tabulky 7 do vztahu (25), získáme realizaci testové statistiky ve tvaru

(26)

Vzhledem k tomu, že bylo nutné odhadnout oba parametry normálního rozdělení z pozorovaných dat, počítáme stupně volnosti chí-kvadrát rozdělení testové statistiky pomocí výrazu . Srovnání realizace testové statistiky s kvantilem příslušným hladině významnosti = 0,05 je následující

(27)

Hodnota překročila příslušný kvantil, proto zamítáme o normalitě rozdělení věku pacientů s nádorem kůže.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity