Aplikovaná analýza klinických a biologických datBiostatistika pro matematickou biologii Testování hypotéz o kvantitativních proměnných Testy o parametrech jednoho rozdělení Neparametrický test pro jeden výběr (Wilcoxonův test)

Analýza a management dat pro zdravotnické obory, Analýza klinických dat | Aplikovaná analýza přežití | Biostatistika pro matematickou biologii |

Úvod do biostatistiky |

Literatura |

Vztah pravděpodobnosti, statistiky a biostatistiky |

Data, jejich popis a vizualizace |

Výstupy z výukové jednotky | Typy dat | Význam popisu a vizualizace dat |

Popis a vizualizace kvalitativních dat | Popis a vizualizace kvantitativních dat |

Identifikace odlehlých hodnot | Literatura |

Náhodná veličina, rozdělení pravděpodobnosti a reálná data |

Literatura |

Bodové a intervalové odhady |

Vlastnosti výběrového průměru | Centrální limitní věta |

Intervalové odhady |

Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení | Interpretace intervalu spolehlivosti | Šířka intervalu spolehlivosti |

Úlohy k procvičení | Literatura |

Úvod do testování hypotéz |

Spojitost testování hypotéz s intervaly spolehlivosti | Statistická a praktická významnost | Faktory ovlivňující sílu testu | Problém násobného testování hypotéz |

Literatura |

Testování hypotéz o kvantitativních proměnných |

Výstupy z výukové jednotky | Postup statistického testování | Testy o parametrech jednoho rozdělení |

Testy o střední hodnotě při známém rozptylu (z-test pro jeden výběr) | Testy o střední hodnotě při neznámém rozptylu (t-test pro jeden výběr) | Neparametrický test pro jeden výběr (Wilcoxonův test) | Test o rozdílu párových (závislých) pozorování (párová t-test) |

Testy o parametrech dvou rozdělení |

Test o rozdílu středních hodnot dvou nezávislých výběrů při stejných rozptylech | Test o shodnosti (homogenitě) rozptylů dvou nezávislých výběrů (F-test) | Welchova korekce pro t-test při nestejných rozptylech | Neparametrický test pro dva výběry (Mannův-Whitneyho test) |

Úlohy k procvičení | Literatura |

Analýza rozptylu (ANOVA) |

Výstupy z výukové jednotky | Přínos analýzy rozptylu | Variabilita výběrových souborů a princip výpočtu | Předpoklady analýzy rozptylu a jejich ověření |

Hodnocení normality pozorovaných hodnot |

Neparametrická alternativa analýzy rozptylu-Kruskallův -Wallisův test | Úlohy k procvičení | Literatura |

Testování hypotéz o kvalitativních proměnných |

Výstupy z výukové jednotky | Úvod | Testování hypotéz o podílech |

Interval spolehlivosti pro parametr π binomického rozdělení | Test pro podíl u jednoho výběru |

Analýza kontingenčních tabulek |

Testování nezávislosti (Pearsonův chí-kvadrát test) | Test hypotézy o symetrii – McNemarův test |

Fisherův exaktní test | Testy o rozdělení náhodné veličiny |

Chí-kvadrát test dobré shody |

Úlohy k procvičení | Literatura |

Asociace ve čtyřpolní tabulce |

Základy korelační analýzy |

Výstupy z výukové jednotky | Úvod | Pearsonův korelační koeficient |

Výpočet Pearsonova korelačního koeficientu | Interval spolehlivosti pro Pearsonův korelační koeficient | Test hypotézy o nulové korelaci dvou náhodných veličin |

Spearmanův korelační koeficient | Úlohy k procvičení | Literatura |

Neparametrický test pro jeden výběr (Wilcoxonův test)

Oba předchozí testy o střední hodnotě, z-test i t-test, jsou parametrické testy vyžadující předpoklad normality dat, který se následně odráží v nulové i alternativní hypotéze. Tento předpoklad je však velmi silný a v praxi často není splněn. V řadě případů, spojených zejména s malou velikostí výběrového souboru, dokonce ani nejsme schopni normalitu dat korektně ověřit. Neparametrickou alternativou z-testu a t-testu pro jeden výběr je Wilcoxonův test, který není testem o střední hodnotě, ale testem o mediánu, a jeho jediným předpokladem je symetrie rozdělení náhodné veličiny X, z něhož pochází náhodný výběr. Nulová hypotéza Wilcoxonova testu se týká mediánu rozdělení sledované náhodné veličiny a spolu s oboustrannou alternativou ji lze zapsat jako

(7.8)

Princip Wilcoxonova testu je velmi jednoduchý, test v podstatě hodnotí, zda je přibližně polovina hodnot x₁, x₂, … , x_n menších než předpokládaná hodnota x₀ a přibližně polovina hodnot x₁, x₂, … , x_n větších než tato konstanta s tím, že předpokládá obdobné kolísání hodnot nalevo i napravo od mediánu (předpoklad symetrie). Při samotném výpočtu Wilcoxonův test převádí pozorované hodnoty x₁, x₂, … , x_n na diference od x₀, tedy na hodnoty y_i, i = 1, … , n definované jako

(7.9)

které jsou následně seřazeny podle velikosti absolutních hodnot od nejmenší diference po největší:

(7.10)

Jednotlivým diferencím y_i je potom na základě tohoto seřazení přiřazeno pořadí, označme ho jako R_i. Samotná testová statistika Wilcoxonova testu je založena pouze na těchto pořadích a je definována jako , kde veličiny S⁺ a S^– spočítáme jako součty pořadí

(7.11)

V případě, že pozorované hodnoty jsou symetricky rozděleny kolem předpokládané hodnoty x₀, bude přibližně jedna polovina diferencí kladná a druhá záporná. Navíc absolutní hodnoty kladných diferencí nebudou systematicky větší než absolutní hodnoty záporných diferencí a naopak, což ve výsledku znamená, že součet pořadí příslušný kladným diferencím bude přibližně stejný jako součet pořadí příslušný záporným diferencím. Za platnosti H₀ tak lze předpokládat, že hodnoty S⁺ a S^- budou zhruba vyrovnané. Na druhou stranu, ve chvíli, kdy H₀ nebude platit, bude mezi hodnotami S⁺ a S^- rozdíl, kdy jedna z těchto statistik bude malé číslo a druhá velké číslo (pojem malé a velké číslo je zde závislý na velikosti souboru).

Pro rozhodnutí o platnosti H₀ je pak testová statistika Wilcoxonova testu, min(S⁺,S^-), srovnána s kritickou hodnotou příslušnou dané velikosti výběrového souboru a zvolené hladině významnosti testu α. Je-li hodnota min(S⁺,S^-) menší nebo rovna kritické hodnotě, zamítáme H₀ o rovnosti mediánu sledované náhodné veličiny předpokládané hodnotě x₀ (spadne-li hodnota minima obou statistik pod určitou mez, ukazuje to na statisticky významný rozdíl mezi S⁺ a S^- a tudíž i na neplatnost H₀). Pro malá n (cca do 30) lze kritickou hodnotu pro statistiku min(S⁺,S^-) odpovídající zvolené hladině významnosti α najít v tabulkách, pro větší n lze rozdělení testové statistiky min(S⁺,S^-) aproximovat normálním rozdělením s následující střední hodnotou a rozptylem:

(7.12)

Jak je vidět z výpočtu, Wilcoxonův test pracuje místo pozorovaných hodnot s pořadími, což je postup robustní vůči odlehlým hodnotám, které by v případě použití z-testu nebo t-testu pro jeden výběr mohly zásadním způsobem ovlivnit hodnotu výběrového průměru. Obecně samozřejmě platí, že parametrické a neparametrické testy nemusí vycházet stejně. Důvody mohou být především nesplnění předpokladů parametrického testu nebo menší síla neparametrického testu. Na druhou stranu, je-li dobře specifikován pravděpodobnostní model a máme-li k dispozici dostatek dat, výsledky parametrických i neparametrických testů budou stejné.

Příklad 7.2. Stejně jako v příkladu 7.1 budeme srovnávat denní energetický příjem skupiny 11 žen ve věku 22 – 30 let s doporučenou hodnotou 7725 kJ s tím, že pro srovnání použijeme Wilcoxonův test. Nulová a alternativní hypotéza jsou vyjádřeny následovně

(7.13)

Pozorované hodnoty, diference od referenční hodnoty 7725 kJ a příslušná pořadí jsou znázorněna v tabulce 7.3 (hodnoty převzaty z [1]). Na základě pořadí absolutních hodnot kladných a záporných diferencí vypočítáme následující hodnoty pomocných statistik a testové statistiky

(7.14)

Výslednou hodnotu testové statistiky srovnáme s kritickou hodnotou w_n(α) příslušnou velikosti souboru, n = 11, a hladině významnosti testu α = 0,05, která je v tomto případě w₁₁(0,05) = 10. Vzhledem k tomu, že realizace testové statistiky, číslo 8, je menší než hodnota 10, zamítáme nulovou hypotézu o tom, že medián energetického příjmu žen ve věku 22 – 30 let je roven 7725 kJ za den.

Tab. 7.3: Denní energetický příjem skupiny 11 žen ve věku 22 – 30 let.

Žena

Denní energetický

příjem v kJ

Diference od hodnoty

7725 kJ

Pořadí absolutní hodnoty diference

1

5260

-2465

11

2

5470

-2255

10

3

5640

-2085

9

4

6180

-1545

8

5

6390

-1335

7

6

6515

-1210

6

7

6805

-920

4

8

7515

-210

1,5

9

7515

-210

1,5

10

8230

505

3

11

8770

1045

5

Žena	Denní energetický příjem v kJ	Diference od hodnoty 7725 kJ	Pořadí absolutní hodnoty diference
1	5260	-2465	11
2	5470	-2255	10
3	5640	-2085	9
4	6180	-1545	8
5	6390	-1335	7
6	6515	-1210	6
7	6805	-920	4
8	7515	-210	1,5
9	7515	-210	1,5
10	8230	505	3
11	8770	1045	5

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity