Přínos analýzy rozptylu
V předchozí kapitole jsme zavedli testy pro srovnávání charakteristik jednoho výběru s danou konstantou a testy pro srovnávání charakteristik dvou výběrů. V praxi je však velmi častá i situace, kdy potřebujeme srovnávat více skupin, příkladem může být sledování plicních funkcí u pacientů s chronickou obstrukční plicní nemocí ve stadiu II, III a IV. Zajímá nás, jak se pacienti v jednotlivých stadiích liší v maximálním inspiračním tlaku, tedy maximálním tlaku, který jsou schopni vygenerovat při nádechu. Otázka tedy je, jak můžeme pro stadia II, III a IV ověřit rozdíl (respektive rovnost) v maximálním inspiračním tlaku? Máme dvě možnosti:
- Použijeme vhodný test pro dva výběry (např. t-test) a otestujeme, jak se liší stadium II od stadia III, stadium II od stadia IV a stadium III od stadia IV. Jinými slovy provedeme 3 testy pro dva výběry.
- Použijeme vhodný test pro více než dva výběry.
Zásadní problém s první možností je v násobném testování hypotéz, kdy je třeba si uvědomit, že s narůstajícím počtem testovaných hypotéz (zde třemi) roste také pravděpodobnost získání falešně pozitivního výsledku, tedy pravděpodobnost toho, že se při našem testování zmýlíme a ukážeme na statisticky významný rozdíl tam, kde ve skutečnosti žádný neexistuje (chyba I. druhu). Pravděpodobnost získání falešně pozitivního výsledku lze v tomto případě jednoduše kvantifikovat: jestliže uvažujeme tři testy a v každém z nich 95% pravděpodobnost, že neuděláme chybu I. druhu, pak za předpokladu nezávislosti provedených testů lze celkovou pravděpodobnost, že neuděláme chybu I. druhu, vyjádřit jako 0,95 × 0,95 × 0,95 = 0,857. Jinými slovy pravděpodobnost, že neuděláme chybu I. druhu, nám celkově klesla na 0,857 a tedy pravděpodobnost, že uděláme chybu I. druhu, nám celkově stoupla na 0,143. Jednoznačnou volbou pro testování hypotéz u více než dvou výběrů by tedy měl být adekvátní test pro více než dva výběry.
Základní parametrickou statistickou metodou pro testování hypotéz o středních hodnotách více než dvou skupin je tzv. analýza rozptylu (analysis of variance, ANOVA). Nulová hypotéza je v případě analýzy rozptylu stanovena jako rovnost středních hodnot ve všech sledovaných skupinách. Označíme-li tedy počet srovnávaných výběrů, pak nulovou a alternativní hypotézu analýzy rozptylu vyjádříme jako
, |
nejméně jedno je odlišné od ostatních. |
(1) |
Příklady problému a jemu příslušných hypotéz vhodných pro analýzu rozptylu může být následující: Liší se účinnost dvou různých dávek léčiva A od účinnosti placeba? Označme střední hodnotu účinnosti placeba , střední hodnotu účinnosti léčiva A v dávce 1 a v dávce 2. Pak nulovou a alternativní hypotézu stanovíme takto
, |
nejméně jedno je odlišné od ostatních. |
(2) |