
Neparametrický test pro jeden výběr (Wilcoxonův test)
Oba předchozí testy o střední hodnotě, z-test i t-test, jsou parametrické testy vyžadující předpoklad normality dat, který se následně odráží v nulové i alternativní hypotéze. Tento předpoklad je však velmi silný a v praxi často není splněn. V řadě případů, spojených zejména s malou velikostí výběrového souboru, dokonce ani nejsme schopni normalitu dat korektně ověřit. Neparametrickou alternativou z-testu a t-testu pro jeden výběr je Wilcoxonův test, který není testem o střední hodnotě, ale testem o mediánu, a jeho jediným předpokladem je symetrie rozdělení náhodné veličiny X, z něhož pochází náhodný výběr. Nulová hypotéza Wilcoxonova testu se týká mediánu rozdělení sledované náhodné veličiny a spolu s oboustrannou alternativou ji lze zapsat jako
|
|
(7.8) |
Princip Wilcoxonova testu je velmi jednoduchý, test v podstatě hodnotí, zda je přibližně polovina hodnot x1, x2, … , xn menších než předpokládaná hodnota x0 a přibližně polovina hodnot x1, x2, … , xn větších než tato konstanta s tím, že předpokládá obdobné kolísání hodnot nalevo i napravo od mediánu (předpoklad symetrie). Při samotném výpočtu Wilcoxonův test převádí pozorované hodnoty x1, x2, … , xn na diference od x0, tedy na hodnoty yi, i = 1, … , n definované jako
|
(7.9) |
které jsou následně seřazeny podle velikosti absolutních hodnot od nejmenší diference po největší:
|
(7.10) |
Jednotlivým diferencím yi je potom na základě tohoto seřazení přiřazeno pořadí, označme ho jako Ri. Samotná testová statistika Wilcoxonova testu je založena pouze na těchto pořadích a je definována jako , kde veličiny S+ a S– spočítáme jako součty pořadí
|
|
(7.11) |
V případě, že pozorované hodnoty jsou symetricky rozděleny kolem předpokládané hodnoty x0, bude přibližně jedna polovina diferencí kladná a druhá záporná. Navíc absolutní hodnoty kladných diferencí nebudou systematicky větší než absolutní hodnoty záporných diferencí a naopak, což ve výsledku znamená, že součet pořadí příslušný kladným diferencím bude přibližně stejný jako součet pořadí příslušný záporným diferencím. Za platnosti H0 tak lze předpokládat, že hodnoty S+ a S- budou zhruba vyrovnané. Na druhou stranu, ve chvíli, kdy H0 nebude platit, bude mezi hodnotami S+ a S- rozdíl, kdy jedna z těchto statistik bude malé číslo a druhá velké číslo (pojem malé a velké číslo je zde závislý na velikosti souboru).
Pro rozhodnutí o platnosti H0 je pak testová statistika Wilcoxonova testu, min(S+,S-), srovnána s kritickou hodnotou příslušnou dané velikosti výběrového souboru a zvolené hladině významnosti testu α. Je-li hodnota min(S+,S-) menší nebo rovna kritické hodnotě, zamítáme H0 o rovnosti mediánu sledované náhodné veličiny předpokládané hodnotě x0 (spadne-li hodnota minima obou statistik pod určitou mez, ukazuje to na statisticky významný rozdíl mezi S+ a S- a tudíž i na neplatnost H0). Pro malá n (cca do 30) lze kritickou hodnotu pro statistiku min(S+,S-) odpovídající zvolené hladině významnosti α najít v tabulkách, pro větší n lze rozdělení testové statistiky min(S+,S-) aproximovat normálním rozdělením s následující střední hodnotou a rozptylem:
|
|
(7.12) |
Jak je vidět z výpočtu, Wilcoxonův test pracuje místo pozorovaných hodnot s pořadími, což je postup robustní vůči odlehlým hodnotám, které by v případě použití z-testu nebo t-testu pro jeden výběr mohly zásadním způsobem ovlivnit hodnotu výběrového průměru. Obecně samozřejmě platí, že parametrické a neparametrické testy nemusí vycházet stejně. Důvody mohou být především nesplnění předpokladů parametrického testu nebo menší síla neparametrického testu. Na druhou stranu, je-li dobře specifikován pravděpodobnostní model a máme-li k dispozici dostatek dat, výsledky parametrických i neparametrických testů budou stejné.
Příklad 7.2. Stejně jako v příkladu 7.1 budeme srovnávat denní energetický příjem skupiny 11 žen ve věku 22 – 30 let s doporučenou hodnotou 7725 kJ s tím, že pro srovnání použijeme Wilcoxonův test. Nulová a alternativní hypotéza jsou vyjádřeny následovně
(7.13) Pozorované hodnoty, diference od referenční hodnoty 7725 kJ a příslušná pořadí jsou znázorněna v tabulce 7.3 (hodnoty převzaty z [1]). Na základě pořadí absolutních hodnot kladných a záporných diferencí vypočítáme následující hodnoty pomocných statistik a testové statistiky
(7.14) Výslednou hodnotu testové statistiky srovnáme s kritickou hodnotou wn(α) příslušnou velikosti souboru, n = 11, a hladině významnosti testu α = 0,05, která je v tomto případě w11(0,05) = 10. Vzhledem k tomu, že realizace testové statistiky, číslo 8, je menší než hodnota 10, zamítáme nulovou hypotézu o tom, že medián energetického příjmu žen ve věku 22 – 30 let je roven 7725 kJ za den.
Tab. 7.3: Denní energetický příjem skupiny 11 žen ve věku 22 – 30 let.
Žena
Denní energetický
příjem v kJ
Diference od hodnoty
7725 kJ
Pořadí absolutní hodnoty diference
1
5260
-2465
11
2
5470
-2255
10
3
5640
-2085
9
4
6180
-1545
8
5
6390
-1335
7
6
6515
-1210
6
7
6805
-920
4
8
7515
-210
1,5
9
7515
-210
1,5
10
8230
505
3
11
8770
1045
5