Slovník | Vyhledávání | Mapa webu
 
Aplikovaná analýza klinických a biologických datBiostatistika pro matematickou biologii Testování hypotéz o kvantitativních proměnných Testy o parametrech jednoho rozdělení Neparametrický test pro jeden výběr (Wilcoxonův test)

Logo Matematická biologie

Neparametrický test pro jeden výběr (Wilcoxonův test)

Oba předchozí testy o střední hodnotě, z-test i t-test, jsou parametrické testy vyžadující předpoklad normality dat, který se následně odráží v nulové i alternativní hypotéze. Tento předpoklad je však velmi silný a v praxi často není splněn. V řadě případů, spojených zejména s malou velikostí výběrového souboru, dokonce ani nejsme schopni normalitu dat korektně ověřit. Neparametrickou alternativou z-testu a t-testu pro jeden výběr je Wilcoxonův test, který není testem o střední hodnotě, ale testem o mediánu, a jeho jediným předpokladem je symetrie rozdělení náhodné veličiny X, z něhož pochází náhodný výběr. Nulová hypotéza Wilcoxonova testu se týká mediánu rozdělení sledované náhodné veličiny a spolu s oboustrannou alternativou ji lze zapsat jako

(7.8)

Princip Wilcoxonova testu je velmi jednoduchý, test v podstatě hodnotí, zda je přibližně polovina hodnot x1, x2, … , xn menších než předpokládaná hodnota x0 a přibližně polovina hodnot x1, x2, … , xn větších než tato konstanta s tím, že předpokládá obdobné kolísání hodnot nalevo i napravo od mediánu (předpoklad symetrie). Při samotném výpočtu Wilcoxonův test převádí pozorované hodnoty x1, x2, … , xn na diference od x0, tedy na hodnoty yi, i = 1, … , n definované jako

(7.9)

které jsou následně seřazeny podle velikosti absolutních hodnot od nejmenší diference po největší:

(7.10)

Jednotlivým diferencím yi je potom na základě tohoto seřazení přiřazeno pořadí, označme ho jako Ri. Samotná testová statistika Wilcoxonova testu je založena pouze na těchto pořadích a je definována jako , kde veličiny S+ a S spočítáme jako součty pořadí

(7.11)

V případě, že pozorované hodnoty jsou symetricky rozděleny kolem předpokládané hodnoty x0, bude přibližně jedna polovina diferencí kladná a druhá záporná. Navíc absolutní hodnoty kladných diferencí nebudou systematicky větší než absolutní hodnoty záporných diferencí a naopak, což ve výsledku znamená, že součet pořadí příslušný kladným diferencím bude přibližně stejný jako součet pořadí příslušný záporným diferencím. Za platnosti H0 tak lze předpokládat, že hodnoty S+ a S- budou zhruba vyrovnané. Na druhou stranu, ve chvíli, kdy H0 nebude platit, bude mezi hodnotami S+ a S- rozdíl, kdy jedna z těchto statistik bude malé číslo a druhá velké číslo (pojem malé a velké číslo je zde závislý na velikosti souboru).

Pro rozhodnutí o platnosti H0  je pak testová statistika Wilcoxonova testu, min(S+,S-), srovnána s kritickou hodnotou příslušnou dané velikosti výběrového souboru a zvolené hladině významnosti testu α. Je-li hodnota min(S+,S-) menší nebo rovna kritické hodnotě, zamítáme H0 o rovnosti mediánu sledované náhodné veličiny předpokládané hodnotě x0 (spadne-li hodnota minima obou statistik pod určitou mez, ukazuje to na statisticky významný rozdíl mezi S+ a S- a tudíž i na neplatnost H0). Pro malá n (cca do 30) lze kritickou hodnotu pro statistiku min(S+,S-) odpovídající zvolené hladině významnosti α najít v tabulkách, pro větší n lze rozdělení testové statistiky min(S+,S-) aproximovat normálním rozdělením s následující střední hodnotou a rozptylem:

(7.12)

Jak je vidět z výpočtu, Wilcoxonův test pracuje místo pozorovaných hodnot s pořadími, což je postup robustní vůči odlehlým hodnotám, které by v případě použití z-testu nebo t-testu pro jeden výběr mohly zásadním způsobem ovlivnit hodnotu výběrového průměru. Obecně samozřejmě platí, že parametrické a neparametrické testy nemusí vycházet stejně. Důvody mohou být především nesplnění předpokladů parametrického testu nebo menší síla neparametrického testu. Na druhou stranu, je-li dobře specifikován pravděpodobnostní model a máme-li k dispozici dostatek dat, výsledky parametrických i neparametrických testů budou stejné.

 

Příklad 7.2. Stejně jako v příkladu 7.1 budeme srovnávat denní energetický příjem skupiny 11 žen ve věku 22 – 30 let s doporučenou hodnotou 7725 kJ s tím, že pro srovnání použijeme Wilcoxonův test. Nulová a alternativní hypotéza jsou vyjádřeny následovně

(7.13)

Pozorované hodnoty, diference od referenční hodnoty 7725 kJ a příslušná pořadí jsou znázorněna v tabulce 7.3 (hodnoty převzaty z [1]). Na základě pořadí absolutních hodnot kladných a záporných diferencí vypočítáme následující hodnoty pomocných statistik a testové statistiky

(7.14)

Výslednou hodnotu testové statistiky srovnáme s kritickou hodnotou wn(α) příslušnou velikosti souboru, n = 11, a hladině významnosti testu α = 0,05, která je v tomto případě w11(0,05) = 10. Vzhledem k tomu, že realizace testové statistiky, číslo 8, je menší než hodnota 10, zamítáme nulovou hypotézu o tom, že medián energetického příjmu žen ve věku 22 – 30 let je roven 7725 kJ za den.

Tab. 7.3: Denní energetický příjem skupiny 11 žen ve věku 22 – 30 let.

Žena

Denní energetický

příjem v kJ

Diference od hodnoty

7725 kJ

Pořadí absolutní hodnoty diference

1

5260

-2465

11

2

5470

-2255

10

3

5640

-2085

9

4

6180

-1545

8

5

6390

-1335

7

6

6515

-1210

6

7

6805

-920

4

8

7515

-210

1,5

9

7515

-210

1,5

10

8230

505

3

11

8770

1045

5

 
 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity