Aplikovaná analýza klinických a biologických datBiostatistika pro matematickou biologii Analýza rozptylu (ANOVA) Předpoklady analýzy rozptylu a jejich ověření Hodnocení normality pozorovaných hodnot

Analýza a management dat pro zdravotnické obory, Analýza klinických dat | Aplikovaná analýza přežití | Biostatistika pro matematickou biologii |

Úvod do biostatistiky |

Literatura |

Vztah pravděpodobnosti, statistiky a biostatistiky |

Data, jejich popis a vizualizace |

Výstupy z výukové jednotky | Typy dat | Význam popisu a vizualizace dat |

Popis a vizualizace kvalitativních dat | Popis a vizualizace kvantitativních dat |

Identifikace odlehlých hodnot | Literatura |

Náhodná veličina, rozdělení pravděpodobnosti a reálná data |

Literatura |

Bodové a intervalové odhady |

Vlastnosti výběrového průměru | Centrální limitní věta |

Intervalové odhady |

Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení | Interpretace intervalu spolehlivosti | Šířka intervalu spolehlivosti |

Úlohy k procvičení | Literatura |

Úvod do testování hypotéz |

Spojitost testování hypotéz s intervaly spolehlivosti | Statistická a praktická významnost | Faktory ovlivňující sílu testu | Problém násobného testování hypotéz |

Literatura |

Testování hypotéz o kvantitativních proměnných |

Výstupy z výukové jednotky | Postup statistického testování | Testy o parametrech jednoho rozdělení |

Testy o střední hodnotě při známém rozptylu (z-test pro jeden výběr) | Testy o střední hodnotě při neznámém rozptylu (t-test pro jeden výběr) | Neparametrický test pro jeden výběr (Wilcoxonův test) | Test o rozdílu párových (závislých) pozorování (párová t-test) |

Testy o parametrech dvou rozdělení |

Test o rozdílu středních hodnot dvou nezávislých výběrů při stejných rozptylech | Test o shodnosti (homogenitě) rozptylů dvou nezávislých výběrů (F-test) | Welchova korekce pro t-test při nestejných rozptylech | Neparametrický test pro dva výběry (Mannův-Whitneyho test) |

Úlohy k procvičení | Literatura |

Analýza rozptylu (ANOVA) |

Výstupy z výukové jednotky | Přínos analýzy rozptylu | Variabilita výběrových souborů a princip výpočtu | Předpoklady analýzy rozptylu a jejich ověření |

Hodnocení normality pozorovaných hodnot |

Neparametrická alternativa analýzy rozptylu-Kruskallův -Wallisův test | Úlohy k procvičení | Literatura |

Testování hypotéz o kvalitativních proměnných |

Výstupy z výukové jednotky | Úvod | Testování hypotéz o podílech |

Interval spolehlivosti pro parametr π binomického rozdělení | Test pro podíl u jednoho výběru |

Analýza kontingenčních tabulek |

Testování nezávislosti (Pearsonův chí-kvadrát test) | Test hypotézy o symetrii – McNemarův test |

Fisherův exaktní test | Testy o rozdělení náhodné veličiny |

Chí-kvadrát test dobré shody |

Úlohy k procvičení | Literatura |

Asociace ve čtyřpolní tabulce |

Základy korelační analýzy |

Výstupy z výukové jednotky | Úvod | Pearsonův korelační koeficient |

Výpočet Pearsonova korelačního koeficientu | Interval spolehlivosti pro Pearsonův korelační koeficient | Test hypotézy o nulové korelaci dvou náhodných veličin |

Spearmanův korelační koeficient | Úlohy k procvičení | Literatura |

Hodnocení normality pozorovaných hodnot

Hodnocení normality pozorovaných hodnot je klíčovým postupem v biostatistice, neboť náhodný výběr z normálního rozdělení je kromě analýzy rozptylu předpokladem i řady dalších základních testů a modelů. Zamítnutí normality rozdělení pozorovaných hodnot však nemusí znamenat povolení nebo zamítnutí použití příslušného testu, ale může např. indikovat odlehlé a nelogické hodnoty v datovém souboru.

Posouzení, zda pozorované hodnoty pochází z normálního rozdělení pravděpodobnosti, není vůbec jednoduché a statistické testy nemusí být nutně nejlepším nástrojem. Vždy je důležité pozorované hodnoty zobrazit pomocí dostupných grafických nástrojů. Základní nástroje pro hodnocení normality pozorovaných dat jsou následující:

Q-Q diagram. Tento grafický nástroj umožňuje posoudit, zda pozorované hodnoty pochází z nějakého známého rozdělení pravděpodobnosti. Q-Q diagram proti sobě zobrazuje na ose x kvantily teoretického rozdělení pravděpodobnosti (v našem případě normálního rozdělení) a na ose y kvantily pozorovaných hodnot. V případě shody výběrového rozdělení dat s teoretickým rozdělením leží všechny body na přímce, zatímco neshodují-li se výběrové a teoretické rozdělení, budou zobrazené body vytvářet křivku odlišnou od přímky. Čtyři příklady Q-Q diagramu jsou znázorněny na obrázku 8.1, kde jsou srovnány simulované hodnoty ze čtyř různých rozdělení pravděpodobnosti s kvantily standardizovaného normálního rozdělení N(0,1). Vlevo nahoře vidíme ideální shodu pozorovaných a teoretických kvantilů danou tím, že hodnoty byly simulovány taktéž z rozdělení N(0,1). Vpravo nahoře jsou také zobrazeny hodnoty simulované z rozdělení N(0,1), ke kterým však byly přidány tři odlehlé hodnoty. Výsledkem je graf, kde téměř všechny zobrazené body leží na přímce, výjimkou jsou právě tři odlehlé hodnoty, které lze jednoznačně identifikovat. Vlevo dole jsou v Q-Q diagramu zobrazeny simulované hodnoty z logaritmicko-normálního rozdělení s parametry 0 a 1, výsledná křivka je typická pro srovnání pozorovaných hodnot z asymetrického rozdělení pravděpodobnosti s normálním rozdělením. Vpravo dole pak vidíme Q-Q diagram pro hodnoty pocházející z rovnoměrně spojitého rozdělení na intervalu (0,1).
Shapirův-Wilkův test byl primárně odvozen pro hodnocení normality u menších výběrových souborů (n mezi 3 a 50), v roce 1982 však byl rozšířen i pro větší soubory (n do 2000). Shapirův-Wilkův test má přímou souvislost s Q-Q diagramem, neboť je založen na statistickém vyjádření toho, jak moc se křivka zobrazená Q-Q diagramem liší od ideální přímky. Jinými slovy, jedná se o proložení seřazených pozorovaných hodnot regresní přímkou vzhledem k očekávaným hodnotám normálního rozdělení. Tento test je důležitým nástrojem právě v situacích, kdy máme k dispozici pouze omezený počet pozorování a na základě vizualizace pomocí Q-Q diagramu nejsme schopni jednoznačně rozhodnout o tom, zda data jsou či nejsou normálně rozdělená.
Kolmogorovův-Smirnovovův test představuje obecnější nástroj na hodnocení shody výběrového rozdělení s teoretickým rozdělením pravděpodobnosti, který je založen na srovnání výběrové distribuční funkce s teoretickou distribuční funkcí odpovídající danému (v našem případě normálnímu) rozdělení. Kolmogorovův-Smirnovovův test hodnotí maximální vzdálenost mezi těmito dvěma distribučními funkcemi.

V případě, že některý z předpokladů analýzy rozptylu není splněn, máme na výběr ze dvou možností, buď se pokusíme data transformovat (např. logaritmická transformace nám může pomoci s normalizací výběrového rozdělení nebo se stabilizací rozptylu u logaritmicko-normálních dat) nebo pro testování použijeme neparametrický test. Nejpoužívanější neparametrickou alternativou k analýze rozptylu je Kruskalův-Wallisův test, který nevyžaduje předpoklad normality pozorovaných hodnot.

Obr. 8.1: Q-Q diagramy pro srovnání výběrového rozdělení hodnot s rozdělením N(0,1).

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity