Aplikovaná analýza klinických a biologických datAnalýza a management dat pro zdravotnické obory, Analýza klinických dat Testování hypotéz o kvalitativních proměnných Fisherův exaktní test

Analýza a management dat pro zdravotnické obory, Analýza klinických dat |

Úvod do statistické analýzy dat pro zdravotnické obory |

Literatura |

Data, jejich popis a vizualizace |

Výstupy z výukové jednotky | Typy dat | Význam popisu a vizualizace dat |

Popis a vizualizace kvalitativních dat | Popis a vizualizace kvantitativních dat |

Identifikace odlehlých hodnot | Literatura |

Náhodná veličina, rozdělení pravděpodobnosti a reálná data |

Literatura |

Bodové a intervalové odhady |

Výstupy z výukové jednotky | Nestranné odhady | Srovnání průměru a mediánu | Teoretické pozadí intervalových odhadů |

Vlastnosti výběrového průměru | Centrální limitní věta |

Intervalové odhady |

Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení | Interpretace intervalu spolehlivosti | Šířka intervalu spolehlivosti |

Literatura |

Úvod do testování hypotéz |

Spojitost testování hypotéz s intervaly spolehlivosti | Statistická a praktická významnost | Faktory ovlivňující sílu testu |

Literatura |

Testování hypotéz o kvantitativních proměnných |

Výstupy z výukové jednotky | Postup statistického testování | Testy o parametrech jednoho rozdělení |

Test o střední hodnotě při známém rozptylu (z-test pro jeden výběr) | Test o střední hodnotě při neznámém rozptylu (t-test pro jeden výběr) | Neparametrický test pro jeden výběr (Wilcoxonův test) | Test o rozdílu párových (závislých) pozorování (párový t-test) |

Testy o parametrech dvou rozdělení |

Test o rozdílu středních hodnot dvou nezávislých výběrů při stejných rozptylech (t-test pro dva | Test o shodnosti (homogenitě) rozptylů dvou nezávislých výběrů (F-test) | Neparametrický test pro dva výběry (Mannův-Whitneyho test) | Literatura |

Analýza rozptylu (ANOVA) |

Výstupy z výukové jednotky | Přínos analýzy rozptylu | Variabilita výběrových souborů a princip výpočtu | Předpoklady analýzy rozptylu a jejich ověření |

Hodnocení normality pozorovaných hodnot |

Neparametrická alternativa analýzy rozptylu – Kruskalův-Wallisův test | Literatura |

Testování hypotéz o kvalitativních proměnných |

Výstupy z výukové jednotky | Úvod | Testování hypotéz o podílech |

Interval spolehlivosti pro parametr π binomického rozdělení | Test pro podíl u jednoho výběru |

Analýza kontingenčních tabulek |

Testování nezávislosti (Pearsonův chí-kvadrát test) | Test hypotézy o symetrii – McNemarův test |

Fisherův exaktní test | Testy o rozdělení náhodné veličiny |

Chí-kvadrát test dobré shody |

Literatura |

Základy korelační analýzy |

Výstupy z výukové jednotky | Úvod | Pearsonův korelační koeficient |

Výpočet Pearsonova korelačního koeficientu | Interval spolehlivosti pro Pearsonův korelační koeficient | Test hypotézy o nulové korelaci dvou náhodných veličin |

Spearmanův korelační koeficient | Literatura |

Řešené příklady |

Aplikovaná analýza přežití | Biostatistika pro matematickou biologii |

Fisherův exaktní test

Definice čtyřpolní tabulky je zřejmá – je to nejjednodušší možná kontingenční tabulka, kdy obě sledované náhodné veličiny mají pouze dvě varianty, kterých mohou nabývat. Stejně jako v případě obecné kontingenční tabulky můžeme pomocí statistických metod rozhodovat o statistické závislosti dvou sledovaných veličin, v případě čtyřpolní tabulky můžeme navíc velmi jednoduše rozhodovat i o míře této závislosti (o těsnosti statistické vazby). Příklad čtyřpolní tabulky představuje tabulka 4, kde jsou četnosti jednotlivých možných kombinací náhodných veličin a označeny písmeny , , a .

Tabulka 4: Ukázka čtyřpolní tabulky.

Při rozhodování o nezávislosti ve čtyřpolní tabulce můžeme samozřejmě použít Pearsonův chí-kvadrát test, neboť tento test lze použít na jakoukoliv kontingenční tabulku, nicméně u tohoto testu je nutné hlídat jeho předpoklady: 80 % očekávaných četností, , větších než 5 totiž v případě čtyřpolní tabulky znamená 100 % očekávaných četností, které mají být větší než 5. Nedodržení předpokladů pro Pearsonův chí-kvadrát test může stejně jako u -testu a analýzy rozptylu vést k nesmyslným závěrům. Situace s malými pozorovanými a tedy i očekávanými četnostmi jsou ale bohužel v medicíně i biologii relativně časté, a to samé platí i pro čtyřpolní tabulky. Zlatým standardem pro hodnocení čtyřpolních tabulek se proto stal jiný test, tzv. Fisherův exaktní test (Fisher exact test), který je založen na výpočtu přesné (exaktní) pravděpodobnosti, se kterou bychom za platnosti nulové hypotézy o nezávislosti veličin a získali naší konkrétní realizaci čtyřpolní tabulky.

Fisherův exaktní test byl odvozen primárně pro čtyřpolní tabulky, nicméně existuje i jeho zobecnění na libovolnou kontingenční tabulku [2]. Nulovou hypotézou je v případě Fisherova testu nezávislost sledovaných veličin a , což znamená, že pokud platí, měly by pozorované četnosti odpovídat očekávaným četnostem. Hlavní myšlenkou Fisherova exaktního testu je výpočet pravděpodobnosti, se kterou bychom získali čtyřpolní tabulky stejně nebo více vzdálené od nulové hypotézy při zachování pozorovaných marginálních četností. Zachování marginálních četností znamená, že se soustředíme pouze na situace, které odpovídají stejným četnostem jednotlivých variant náhodných veličin, jako jsme pozorovali v našem experimentu.

Pravděpodobnost získání konkrétního výsledku čtyřpolní tabulky s danými marginálními četnostmi lze vypočítat pomocí vzorce

(23)

Výpočet testové statistiky potom probíhá následovně: spočítáme pravděpodobnosti ^*, příslušné všem možným tabulkám, které lze získat při zachování marginálních četností. Výsledná testová statistika, respektive -hodnota, Fisherova exaktního testu je součtem pravděpodobností ^* menších nebo stejných jako hodnota , která přísluší čtyřpolní tabulce sestrojené na základě pozorovaných hodnot. Sčítáme tak pravděpodobnosti možností, které jsou více nebo stejně vzdáleny od nulové hypotézy, jinými slovy tedy představují extrémnější nebo stejně extrémní variantu výsledku. Z výpočetního postupu je vidět, že Fisherův exaktní test není úplně standardním testem, neboť roli testové statistiky zde, na rozdíl od všech předchozích testů, hraje přímo -hodnota. Tu potom pro rozhodnutí o platnosti nulové hypotézy srovnáme se zvolenou hladinou významnosti testu , je-li -hodnota testu menší než zvolené , zamítáme nulovou hypotézu o nezávislosti veličin a .

Příklad 4. Uvažujme opět skupinu 60 studentů ošetřovatelství s tím, že tentokrát budeme zjišťovat, zda jejich barva očí (modrá barva očí nebo jiná barva očí) souvisí s nošením brýlí (používá nebo nepoužívá brýle). Pomocí Fisherova exaktního testu chceme testovat nulovou hypotézu o nezávislosti těchto nominálních veličin. Pozorovaná data, respektive pozorovanou čtyřpolní tabulku představuje tabulka 5.

Tabulka 5: Počty studentů dle modré barvy očí a nošení brýlí.

Pravděpodobnost příslušná pozorované čtyřpolní tabulce je dle vztahu (23) následující

(24)

Dále vypočítejme pravděpodobnosti ^*, pro jednotlivé možnosti kontingenční tabulky se zachováním marginálních četností, tedy se zachováním řádkových a sloupcových součtů. Výsledek zobrazuje tabulka 6.

Tabulka 6: Pravděpodobnosti příslušné jednotlivým možnostem kontingenční tabulky z příkladu 4.

Výsledná -hodnota Fisherova exaktního testu je dána součtem ^* všech řádků kromě řádku 13, neboť námi pozorované hodnoty, odpovídající řádku 12, představují vzhledem k nulové hypotéze druhý nejběžnější výsledek ( = 0,205). Pro všechny řádky tabulky kromě řádku 13 tedy platí . -hodnotu testu tedy spočítáme jako 1 – 0,245 = 0,755 a vzhledem k tomu, že platí 0,755 > 0,05, nezamítáme na hladině významnosti = 0,05 nulovou hypotézu o nezávislosti barvy očí a nošení brýlí u studentů ošetřovatelství.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity