Nulová hypotéza
V předchozí kapitole jsme se věnovali bodovým a intervalovým odhadům, které používáme k popisu jednotlivých charakteristik a parametrů náhodných veličin a jejich rozdělení pravděpodobnosti. Pokud se chceme posunout od pouhého popisu ke srovnávacím analýzám, musíme se v biostatistice přesunout k problematice testování hypotéz (hypothesis testing). Pomocí statistických testů jsme schopni realizovat následující úlohy:
- Srovnat výběrovou charakteristiku jako odhad neznámého parametru θ s předpokládanou hodnotou, srovnat výběrové charakteristiky dvou náhodných výběrů mezi sebou, nebo případně vzájemně srovnat výběrové charakteristiky více náhodných výběrů.
- Hodnotit změnu v hodnotách sledované veličiny vzhledem k nějakému vnějšímu zásahu.
- Rozhodnout o nezávislosti dvou náhodných veličin.
- Rozhodnout o charakteru rozdělení pravděpodobnosti náhodné veličiny.
Klíčovou úlohu v testování hypotéz hrají samozřejmě hypotézy, což není nic jiného než tvrzení, které lze na základě pozorovaných hodnot náhodné veličiny ohodnotit ze statistického hlediska. Rozlišujeme tzv. nulovou a alternativní hypotézu. Nulová hypotéza (null hypothesis) je tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny (vzhledem k cílové populaci subjektů). Může být tvrzením o parametrech rozdělení nebo tvaru rozdělení pravděpodobnosti. Alternativní hypotéza (alternative hypothesis) je tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny, které popírá platnost nulové hypotézy. Vymezuje, jaká situace nastává, když nulová hypotéza neplatí. Testování hypotéz se tak zabývá rozhodováním o platnosti stanovených hypotéz na základě pozorovaných hodnot sledované náhodné veličiny. Platnost hypotéz ověřujeme pomocí statistického testu, rozhodovacího pravidla, které každému náhodnému výběru (pozorovaným hodnotám náhodné veličiny) přiřadí právě jedno ze dvou možných rozhodnutí: nulovou hypotézu H0 nezamítáme nebo naopak, nulovou hypotézu H0 zamítáme.
Jak definovat nulovou a alternativní hypotézu ukážeme na dvou klinických otázkách:
-
Urychluje použití antibiotika ve srovnání s použitím běžné dezinfekce hojení rány? Označme střední dobu hojení s antibiotiky symbolem θ1 a střední dobu hojení bez antibiotik symbolem θ2. Pak
Nulová hypotéza má tvar (6.1) Alternativní hypotéza má tvar (6.2) -
Je průměrný systolický tlak mužů nad 70 let stejný jako průměrný systolický tlak celé mužské populace? Označme střední systolický tlak mužů nad 70 let symbolem θ1 a populační hodnotu systolického tlaku (konstantu) symbolem θ0. Pak
Nulová hypotéza má tvar (6.3) Alternativní hypotéza má tvar (6.4)
Z uvedených příkladů si lze všimnout, že nulová hypotéza je vždy postavena jako nepřítomnost rozdílu mezi sledovanými skupinami (bod 2), respektive nepřítomnost efektu léčby (bod 1). Jinak řečeno, nulová hypotéza odráží fakt, že se něco nestalo nebo neprojevilo, a je tedy stanovena jako opak toho, co chceme experimentem prokázat. Důvodem, proč nulovou hypotézu formulujeme právě takto, je skutečnost, že ji chceme pomocí pozorovaných hodnot vyvrátit. Pro zamítnutí platnosti nulové hypotézy nám totiž stačí najít jeden příklad, kdy nulová hypotéza neplatí (tím příkladem má být náš náhodný výběr, naše pozorovaná data). Zamítnutí jakékoliv hypotézy je vždy jednodušší než její potvrzení. S tím souvisí i terminologie v případě, že se nám nepodaří nulovou hypotézu vyvrátit, kdy hovoříme o případném nezamítnutí nulové hypotézy a nikoliv o přijetí nulové hypotézy.
Označme symbolem θ parametr, který nás zajímá (např. střední hodnotu sledované náhodné veličiny), a symbolem θ0 hodnotu, se kterou chceme neznámý parametr srovnat (θ0 může být konstanta nebo hodnota jiného neznámého parametru). Pak můžeme obě hypotézy obecně zapsat ve tvaru:
Nulová hypotéza má tvar | (6.5) | |
Alternativní hypotéza má tvar
|
(6.6) | |
V případě jakéhokoliv rozhodování se můžeme mýlit, a to samé platí i o testování hypotéz. Vzhledem k nulové hypotéze existují čtyři možnosti výsledku rozhodovacího procesu, které ukazuje tabulka 6.1. Dva z těchto možných výsledků, které znamenají chybný úsudek, jsou standardně označovány jako chyba I. druhu a chyba II. druhu.
Tab. 6.1: Možné výsledky rozhodovacího procesu při testování statistických hypotéz.
|
Skutečnost |
|
H0 platí |
H0 neplatí |
|
H0 nezamítáme |
správné přijetí platné nulové hypotézy |
chyba II. druhu |
H0 zamítáme |
chyba I. druhu |
správné zamítnutí neplatné nulové hypotézy |
Chybou I. druhu (type I error) označujeme falešně pozitivní závěr testu, kdy na základě výsledku testu zamítneme nulovou hypotézu, která ale ve skutečnosti platí (tedy mezi sledovanými skupinami ve skutečnosti není rozdíl, ale náš závěr na základě dat je opačný). A obdobně, chybou II. druhu (type II error) nazýváme zase falešně negativní závěr testu, kdy na základě výsledku testu nezamítneme nulovou hypotézu, která ale ve skutečnosti neplatí (tedy rozdíl mezi skupinami skutečně existuje, ale my ho nejsme schopni na základě dat statisticky prokázat). Příslušným výsledkům rozhodovacího procesu z tabulky 6.1 odpovídají pravděpodobnosti jejich nastání, které mají opět standardní označení, tentokrát uvedené v tabulce 6.2.
Tab. 6.2: Možné výsledky rozhodovacího procesu a jejich příslušné pravděpodobnosti.
Rozhodnutí |
Skutečnost |
|
H0 platí |
H0 neplatí |
|
H0 nezamítáme |
správné rozhodnutí: P = 1 – α |
chyba II. druhu: P = β |
H0 zamítáme |
chyba I. druhu: P = α |
správné rozhodnutí: P = 1 – β |
Pravděpodobnost chyby I. druhu se značí α (odpovídá riziku získání falešně pozitivního výsledku), zatímco pravděpodobnost chyby II. druhu se značí β (odpovídá riziku získání falešně negativního výsledku). Při jakémkoliv testování tak máme nenulovou pravděpodobnost, že se v závěru testu mýlíme a deklarujeme opak skutečnosti. Kromě pravděpodobnosti toho, že při testování na základě dat dojdeme k chybnému závěru, je důležité vnímat i pravděpodobnost toho, že k chybnému rozhodnutí nedojde. Tedy v případě platné nulové hypotézy máme pravděpodobnost 1 – α, že tuto hypotézu nezamítneme, a v případě neplatné nulové hypotézy máme pravděpodobnost 1 – β, že tuto skutečnost rozpoznáme, zamítneme H0 a přikloníme se k alternativní hypotéze. Pravděpodobnost 1 – β se nazývá síla testu (power of test) a spolu s pravděpodobností chyby I. druhu (α) je to klíčová charakteristika každého statistického testu.
Testování hypotéz lze chápat i jako analogii se soudním procesem. Fakt, že nulová hypotéza odráží nepřítomnost nějakého rozdílu nebo efektu přeneseně znamená, že ctíme presumpci neviny, tedy vycházíme z toho, že obžalovaný nic neudělal (nulová hypotéza platí). Následně požadujeme důkazy pro prokázání viny, tedy důkazy pro to, že definovaný skutek, rozdíl nebo efekt skutečně existuje. Těmito důkazy není samozřejmě nic jiného než pozorované hodnoty (realizace) náhodné veličiny. Jinými slovy, na základě pozorovaných dat chceme ukázat, že nulová hypotéza neplatí.
Na analogii se soudním procesem lze demonstrovat i skutečnost, že v případě statistického testu nelze minimalizovat pravděpodobnost obou chyb (I. a II. druhu) zároveň, neboť jsou vzájemně provázané. Když nám totiž bude stačit pro usvědčení (zamítnutí hypotézy) málo důkazů, zvýší se sice procento odsouzených, kteří jsou skutečně vinni (tedy procento správně zamítnutých neplatných nulových hypotéz), ale zároveň se zvýší procento odsouzených, kteří jsou nevinní (zvýší se zastoupení chyb I. druhu). A naopak, budeme-li požadovat pro odsouzení hodně důkazů, zvýší se sice procento nevinných, kteří budou osvobozeni (tedy procento správně nezamítnutých platných nulových hypotéz), ale zároveň se zvýší i procento viníků, kteří budou osvobozeni a nebudou potrestáni (zvýší se zastoupení chyb II. druhu).
V testování hypotéz je za důležitější považována kontrola falešně pozitivního výsledku, tedy chyby I. druhu, proto si při testování musíme nejdříve stanovit maximální možnou pravděpodobnost chyby I. druhu, kterou jsme ještě ochotni podstoupit (musíme si stanovit maximální pravděpodobnost, s jakou riskujeme falešně pozitivní výsledek). S touto hodnotou α, kterou nazýváme hladina významnosti testu (level of significance), pak dále pracujeme jako s pevně danou a následně k ní volíme test, který má minimální pravděpodobnost chyby II. druhu, β, tedy maximální sílu testu, 1 – β. Za standardní hladiny významnosti testu jsou přijímány hodnoty α = 0,05, tedy 5 %, nebo α = 0,01, tedy 1 %, lze však zvolit i hladinu jinou, přísnější i méně přísnou.