Slovník | Vyhledávání | Mapa webu
 
Aplikovaná analýza klinických a biologických datAnalýza a management dat pro zdravotnické obory, Analýza klinických dat Testování hypotéz o kvantitativních proměnných Testy o parametrech jednoho rozdělení Neparametrický test pro jeden výběr (Wilcoxonův test)

Logo Matematická biologie

Neparametrický test pro jeden výběr (Wilcoxonův test)

Oba předchozí testy o střední hodnotě, -test i -test, jsou parametrické testy vyžadující předpoklad normality dat, který se následně odráží v nulové i alternativní hypotéze. Tento předpoklad je však velmi silný a v praxi často není splněn. V řadě případů, spojených zejména s malou velikostí výběrového souboru, dokonce ani nejsme schopni normalitu dat korektně ověřit. Neparametrickou alternativou -testu a -testu pro jeden výběr je Wilcoxonův test, který není testem o střední hodnotě, ale testem o mediánu, a jeho jediným předpokladem je symetrie rozdělení náhodné veličiny , z něhož pochází náhodný výběr. Nulová hypotéza Wilcoxonova testu se týká mediánu rozdělení sledované náhodné veličiny a spolu s oboustrannou alternativou ji lze zapsat jako

(7)

Princip Wilcoxonova testu je velmi jednoduchý, test v podstatě hodnotí, zda je přibližně polovina hodnot menších než předpokládaná hodnota a přibližně polovina hodnot větších než tato konstanta s tím, že předpokládá obdobné kolísání hodnot nalevo i napravo od mediánu (předpoklad symetrie). Při samotném výpočtu Wilcoxonův test převádí pozorované hodnoty  na diference od , tedy na hodnoty , definované jako

,

(8)

které jsou následně seřazeny podle velikosti absolutních hodnot od nejmenší diference po největší:

.
(9)

Jednotlivým diferencím  je potom na základě tohoto seřazení přiřazeno pořadí, označme ho jako . Samotná testová statistika Wilcoxonova testu je založena pouze na těchto pořadích a je definována jako , kde veličiny a spočítáme jako součty pořadí

,
.
(10)

V případě, že pozorované hodnoty jsou symetricky rozděleny kolem předpokládané hodnoty , bude přibližně jedna polovina diferencí kladná a druhá záporná. Navíc absolutní hodnoty kladných diferencí nebudou systematicky větší než absolutní hodnoty záporných diferencí a naopak, což ve výsledku znamená, že součet pořadí příslušný kladným diferencím bude přibližně stejný jako součet pořadí příslušný záporným diferencím. Za platnosti tak lze předpokládat, že hodnoty a budou zhruba vyrovnané. Na druhou stranu, ve chvíli, kdy nebude platit, bude mezi hodnotami a rozdíl, kdy jedna z těchto statistik bude malé číslo a druhá velké číslo (pojem malé a velké číslo je zde závislý na velikosti souboru).
Pro rozhodnutí o platnosti   je pak testová statistika Wilcoxonova testu, , srovnána s kritickou hodnotou příslušnou dané velikosti výběrového souboru a zvolené hladině významnosti testu . Je-li hodnota menší nebo rovna kritické hodnotě, zamítáme o rovnosti mediánu sledované náhodné veličiny předpokládané hodnotě (spadne-li hodnota minima obou statistik pod určitou mez, ukazuje to na statisticky významný rozdíl mezi a a tudíž i na neplatnost ). Pro malá (cca do 30) lze kritickou hodnotu pro statistiku odpovídající zvolené hladině významnosti najít v tabulkách, pro větší lze rozdělení testové statistiky aproximovat normálním rozdělením s následující střední hodnotou a rozptylem:

.
(11)

Jak je vidět z výpočtu, Wilcoxonův test pracuje místo pozorovaných hodnot s pořadími, což je postup robustní vůči odlehlým hodnotám, které by v případě použití -testu nebo -testu pro jeden výběr mohly zásadním způsobem ovlivnit hodnotu výběrového průměru. Obecně samozřejmě platí, že parametrické a neparametrické testy nemusí vycházet stejně. Důvody mohou být především nesplnění předpokladů parametrického testu nebo menší síla neparametrického testu. Na druhou stranu, je-li dobře specifikován pravděpodobnostní model a máme-li k dispozici dostatek dat, výsledky parametrických i neparametrických testů budou stejné.

 

Příklad 2. Stejně jako v příkladu 1 budeme srovnávat denní energetický příjem skupiny 11 žen ve věku 22 – 30 let s doporučenou hodnotou 7725 kJ s tím, že pro srovnání použijeme Wilcoxonův test. Nulová a alternativní hypotéza jsou vyjádřeny následovně

,

.

(12)

Pozorované hodnoty, diference od referenční hodnoty 7725 kJ a příslušná pořadí jsou znázorněna v tabulce 3 (hodnoty převzaty z [1]). Na základě pořadí absolutních hodnot kladných a záporných diferencí vypočítáme následující hodnoty pomocných statistik a testové statistiky

,

.

(13)

Výslednou hodnotu testové statistiky srovnáme s kritickou hodnotou příslušnou velikosti souboru, = 11, a hladině významnosti testu = 0,05, která je v tomto případě = 10. Vzhledem k tomu, že realizace testové statistiky, číslo 8, je menší než hodnota 10, zamítáme nulovou hypotézu o tom, že medián energetického příjmu žen ve věku 22 – 30 let je roven 7725 kJ za den.

Tabulka 3: Denní energetický příjem skupiny 11 žen ve věku 22 – 30 let.

Žena

Denní energetický

příjem v kJ

Diference od hodnoty

7725 kJ

Pořadí absolutní hodnoty diference

1

5260

-2465

11

2

5470

-2255

10

3

5640

-2085

9

4

6180

-1545

8

5

6390

-1335

7

6

6515

-1210

6

7

6805

-920

4

8

7515

-210

1,5

9

7515

-210

1,5

10

8230

505

3

11

8770

1045

5

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity