Aplikovaná analýza klinických a biologických datAnalýza a management dat pro zdravotnické obory, Analýza klinických dat Úvod do testování hypotéz Nulová hypotéza

Analýza a management dat pro zdravotnické obory, Analýza klinických dat |

Úvod do statistické analýzy dat pro zdravotnické obory |

Literatura |

Data, jejich popis a vizualizace |

Výstupy z výukové jednotky | Typy dat | Význam popisu a vizualizace dat |

Popis a vizualizace kvalitativních dat | Popis a vizualizace kvantitativních dat |

Identifikace odlehlých hodnot | Literatura |

Náhodná veličina, rozdělení pravděpodobnosti a reálná data |

Literatura |

Bodové a intervalové odhady |

Výstupy z výukové jednotky | Nestranné odhady | Srovnání průměru a mediánu | Teoretické pozadí intervalových odhadů |

Vlastnosti výběrového průměru | Centrální limitní věta |

Intervalové odhady |

Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení | Interpretace intervalu spolehlivosti | Šířka intervalu spolehlivosti |

Literatura |

Úvod do testování hypotéz |

Spojitost testování hypotéz s intervaly spolehlivosti | Statistická a praktická významnost | Faktory ovlivňující sílu testu |

Literatura |

Testování hypotéz o kvantitativních proměnných |

Výstupy z výukové jednotky | Postup statistického testování | Testy o parametrech jednoho rozdělení |

Test o střední hodnotě při známém rozptylu (z-test pro jeden výběr) | Test o střední hodnotě při neznámém rozptylu (t-test pro jeden výběr) | Neparametrický test pro jeden výběr (Wilcoxonův test) | Test o rozdílu párových (závislých) pozorování (párový t-test) |

Testy o parametrech dvou rozdělení |

Test o rozdílu středních hodnot dvou nezávislých výběrů při stejných rozptylech (t-test pro dva | Test o shodnosti (homogenitě) rozptylů dvou nezávislých výběrů (F-test) | Neparametrický test pro dva výběry (Mannův-Whitneyho test) | Literatura |

Analýza rozptylu (ANOVA) |

Výstupy z výukové jednotky | Přínos analýzy rozptylu | Variabilita výběrových souborů a princip výpočtu | Předpoklady analýzy rozptylu a jejich ověření |

Hodnocení normality pozorovaných hodnot |

Neparametrická alternativa analýzy rozptylu – Kruskalův-Wallisův test | Literatura |

Testování hypotéz o kvalitativních proměnných |

Výstupy z výukové jednotky | Úvod | Testování hypotéz o podílech |

Interval spolehlivosti pro parametr π binomického rozdělení | Test pro podíl u jednoho výběru |

Analýza kontingenčních tabulek |

Testování nezávislosti (Pearsonův chí-kvadrát test) | Test hypotézy o symetrii – McNemarův test |

Fisherův exaktní test | Testy o rozdělení náhodné veličiny |

Chí-kvadrát test dobré shody |

Literatura |

Základy korelační analýzy |

Výstupy z výukové jednotky | Úvod | Pearsonův korelační koeficient |

Výpočet Pearsonova korelačního koeficientu | Interval spolehlivosti pro Pearsonův korelační koeficient | Test hypotézy o nulové korelaci dvou náhodných veličin |

Spearmanův korelační koeficient | Literatura |

Řešené příklady |

Aplikovaná analýza přežití | Biostatistika pro matematickou biologii |

Nulová hypotéza

V předchozí kapitole jsme se věnovali bodovým a intervalovým odhadům, které používáme k popisu jednotlivých charakteristik a parametrů náhodných veličin a jejich rozdělení pravděpodobnosti. Pokud se chceme posunout od pouhého popisu ke srovnávacím analýzám, musíme se v biostatistice přesunout k problematice testování hypotéz (hypothesis testing). Pomocí statistických testů jsme schopni realizovat následující úlohy:

Srovnat výběrovou charakteristiku jako odhad neznámého parametru s předpokládanou hodnotou, srovnat výběrové charakteristiky dvou náhodných výběrů mezi sebou, nebo případně vzájemně srovnat výběrové charakteristiky více náhodných výběrů.
Hodnotit změnu v hodnotách sledované veličiny vzhledem k nějakému vnějšímu zásahu.
Rozhodnout o nezávislosti dvou náhodných veličin.
Rozhodnout o charakteru rozdělení pravděpodobnosti náhodné veličiny.

Klíčovou úlohu v testování hypotéz hrají samozřejmě hypotézy, což není nic jiného než tvrzení, které lze na základě pozorovaných hodnot náhodné veličiny ohodnotit ze statistického hlediska. Rozlišujeme tzv. nulovou a alternativní hypotézu. Nulová hypotéza (null hypothesis) je tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny (vzhledem k cílové populaci subjektů). Může být tvrzením o parametrech rozdělení nebo tvaru rozdělení pravděpodobnosti. Alternativní hypotéza (alternative hypothesis) je tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny, které popírá platnost nulové hypotézy. Vymezuje, jaká situace nastává, když nulová hypotéza neplatí. Testování hypotéz se tak zabývá rozhodováním o platnosti stanovených hypotéz na základě pozorovaných hodnot sledované náhodné veličiny. Platnost hypotéz ověřujeme pomocí statistického testu, rozhodovacího pravidla, které každému náhodnému výběru (pozorovaným hodnotám náhodné veličiny) přiřadí právě jedno ze dvou možných rozhodnutí: nulovou hypotézu nezamítáme nebo naopak, nulovou hypotézu zamítáme.

Jak definovat nulovou a alternativní hypotézu ukážeme na dvou klinických otázkách:

Urychluje použití antibiotika ve srovnání s použitím běžné dezinfekce hojení rány? Označme střední dobu hojení s antibiotiky symbolem a střední dobu hojení bez antibiotik symbolem . Pak

Je průměrný systolický tlak mužů nad 70 let stejný jako průměrný systolický tlak celé mužské populace? Označme střední systolický tlak mužů nad 70 let symbolem a populační hodnotu systolického tlaku (konstantu) symbolem . Pak

Z uvedených příkladů si lze všimnout, že nulová hypotéza je vždy postavena jako nepřítomnost rozdílu mezi sledovanými skupinami (bod 2), respektive nepřítomnost efektu léčby (bod 1). Jinak řečeno, nulová hypotéza odráží fakt, že se něco nestalo nebo neprojevilo, a je tedy stanovena jako opak toho, co chceme experimentem prokázat. Důvodem, proč nulovou hypotézu formulujeme právě takto, je skutečnost, že ji chceme pomocí pozorovaných hodnot vyvrátit. Pro zamítnutí platnosti nulové hypotézy nám totiž stačí najít jeden příklad, kdy nulová hypotéza neplatí (tím příkladem má být náš náhodný výběr, naše pozorovaná data). Zamítnutí jakékoliv hypotézy je vždy jednodušší než její potvrzení. S tím souvisí i terminologie v případě, že se nám nepodaří nulovou hypotézu vyvrátit, kdy hovoříme o případném nezamítnutí nulové hypotézy a nikoliv o přijetí nulové hypotézy.

Označme symbolem θ parametr, který nás zajímá (např. střední hodnotu sledované náhodné veličiny), a symbolem hodnotu, se kterou chceme neznámý parametr srovnat ( může být konstanta nebo hodnota jiného neznámého parametru). Pak můžeme obě hypotézy obecně zapsat ve tvaru:

V případě jakéhokoliv rozhodování se můžeme mýlit, a to samé platí i o testování hypotéz. Vzhledem k nulové hypotéze existují čtyři možnosti výsledku rozhodovacího procesu, které ukazuje tabulka 1. Dva z těchto možných výsledků, které znamenají chybný úsudek, jsou standardně označovány jako chyba I. druhu a chyba II. druhu.

Tabulka 5.1: Možné výsledky rozhodovacího procesu při testování statistických hypotéz.

Chybou I. druhu (type I error) označujeme falešně pozitivní závěr testu, kdy na základě výsledku testu zamítneme nulovou hypotézu, která ale ve skutečnosti platí (tedy mezi sledovanými skupinami ve skutečnosti není rozdíl, ale náš závěr na základě dat je opačný). A obdobně, chybou II. druhu (type II error) nazýváme zase falešně negativní závěr testu, kdy na základě výsledku testu nezamítneme nulovou hypotézu, která ale ve skutečnosti neplatí (tedy rozdíl mezi skupinami skutečně existuje, ale my ho nejsme schopni na základě dat statisticky prokázat). Příslušným výsledkům rozhodovacího procesu z tabulky 5.1 odpovídají pravděpodobnosti jejich nastání, které mají opět standardní označení, tentokrát uvedené v tabulce 5.2.

Tabulka 5.2: Možné výsledky rozhodovacího procesu a jejich příslušné pravděpodobnosti.

Pravděpodobnost chyby I. druhu se značí (odpovídá riziku získání falešně pozitivního výsledku), zatímco pravděpodobnost chyby II. druhu se značí (odpovídá riziku získání falešně negativního výsledku). Při jakémkoliv testování tak máme nenulovou pravděpodobnost, že se v závěru testu mýlíme a deklarujeme opak skutečnosti. Kromě pravděpodobnosti toho, že při testování na základě dat dojdeme k chybnému závěru, je důležité vnímat i pravděpodobnost toho, že k chybnému rozhodnutí nedojde. Tedy v případě platné nulové hypotézy máme pravděpodobnost , že tuto hypotézu nezamítneme, a v případě neplatné nulové hypotézy máme pravděpodobnost , že tuto skutečnost rozpoznáme, zamítneme a přikloníme se k alternativní hypotéze. Pravděpodobnost se nazývá síla testu (power of test) a spolu s pravděpodobností chyby I. druhu () je to klíčová charakteristika každého statistického testu.

Testování hypotéz lze chápat i jako analogii se soudním procesem. Fakt, že nulová hypotéza odráží nepřítomnost nějakého rozdílu nebo efektu přeneseně znamená, že ctíme presumpci neviny, tedy vycházíme z toho, že obžalovaný nic neudělal (nulová hypotéza platí). Následně požadujeme důkazy pro prokázání viny, tedy důkazy pro to, že definovaný skutek, rozdíl nebo efekt skutečně existuje. Těmito důkazy není samozřejmě nic jiného než pozorované hodnoty (realizace) náhodné veličiny. Jinými slovy, na základě pozorovaných dat chceme ukázat, že nulová hypotéza neplatí.

Na analogii se soudním procesem lze demonstrovat i skutečnost, že v případě statistického testu nelze minimalizovat pravděpodobnost obou chyb (I. a II. druhu) zároveň, neboť jsou vzájemně provázané. Když nám totiž bude stačit pro usvědčení (zamítnutí hypotézy) málo důkazů, zvýší se sice procento odsouzených, kteří jsou skutečně vinni (tedy procento správně zamítnutých neplatných nulových hypotéz), ale zároveň se zvýší procento odsouzených, kteří jsou nevinní (zvýší se zastoupení chyb I. druhu). A naopak, budeme-li požadovat pro odsouzení hodně důkazů, zvýší se sice procento nevinných, kteří budou osvobozeni (tedy procento správně nezamítnutých platných nulových hypotéz), ale zároveň se zvýší i procento viníků, kteří budou osvobozeni a nebudou potrestáni (zvýší se zastoupení chyb II. druhu).

V testování hypotéz je za důležitější považována kontrola falešně pozitivního výsledku, tedy chyby I. druhu, proto si při testování musíme nejdříve stanovit maximální možnou pravděpodobnost chyby I. druhu, kterou jsme ještě ochotni podstoupit (musíme si stanovit maximální pravděpodobnost, s jakou riskujeme falešně pozitivní výsledek). S touto hodnotou , kterou nazýváme hladina významnosti testu (level of significance), pak dále pracujeme jako s pevně danou a následně k ní volíme test, který má minimální pravděpodobnost chyby II. druhu, , tedy maximální sílu testu, . Za standardní hladiny významnosti testu jsou přijímány hodnoty = 0,05, tedy 5 %, nebo = 0,01, tedy 1 %, lze však zvolit i hladinu jinou, přísnější i méně přísnou.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity