Slovník | Vyhledávání | Mapa webu
 
Aplikovaná analýza klinických a biologických datBiostatistika pro matematickou biologii Testování hypotéz o kvalitativních proměnných Analýza kontingenčních tabulek Testování nezávislosti (Pearsonův chí-kvadrát test)

Logo Matematická biologie

Testování nezávislosti (Pearsonův chí-kvadrát test)

Pearsonův chí-kvadrát test je základním a nejpoužívanějším testem nezávislosti v kontingenční tabulce. Nulovou hypotézou je zde tvrzení, že náhodné veličiny X a Y jsou nezávislé, což znamená, že pravděpodobnost nastání určité varianty náhodné veličiny X neovlivňuje nastání určité varianty náhodné veličiny Y. Vyjádřeno pomocí pravděpodobností tedy hypotéza nezávislosti znamená, že

(9.15)

Test je založen na myšlence srovnání pozorovaných četností (ty jsou dány pozorováním, experimentem) a tzv. očekávaných četností (kalkulovaných za předpokladu platnosti H0) jednotlivých kombinací náhodných veličin X a Y. Označme nij počet subjektů, u nichž nastala situace, že náhodná veličina X je rovna hodnotě i a náhodná veličina Y je rovna hodnotě j. Dále definujme tzv. marginální četnosti příslušné i-té variantě veličiny X, respektive j-té variantě veličiny Y, jako

(9.16)

Za platnosti nulové hypotézy lze očekávané četnosti jednotlivých kombinací, kdy X = i a zároveň Y = j, které budeme značit eij, vypočítat pomocí výrazu

(9.17)

Karl Pearson již v roce 1904 odvodil, že statistika

(9.18)

má za platnosti nulové hypotézy o nezávislosti chí-kvadrát rozdělení pravděpodobnosti s parametrem (r – 1)(c – 1), tedy že platí . Nulovou hypotézu o nezávislosti X a Y zamítáme na hladině významnosti α, když hodnota testové statistiky X2 přesáhne příslušný 100(1 – α)% kvantil rozdělení χ2, tedy když

(9.19)

Předpoklady Pearsonova chí-kvadrát testu, které musíme před výpočtem vždy ověřit, jsou následující:

  • Jednotlivá pozorování sumarizovaná v kontingenční tabulce jsou nezávislá, tedy každý prvek výběrového souboru je zahrnut pouze v jedné buňce kontingenční tabulky.
  • Alespoň 80 % buněk kontingenční tabulky má očekávanou četnost (eij) větší než 5 a všechny buňky tabulky (tedy 100 % buněk) mají očekávanou četnost (eij) větší než 2. Tento předpoklad souvisí s asymptotickými vlastnostmi statistiky X2 a je to tedy stejně důležitý předpoklad jako např. předpoklad normality pozorovaných hodnot v případě skupiny t-testů.

Příklad 9.3. Při hodnocení souboru pacientů se zhoubným nádorem kůže (melanomem) chceme zjistit, zda spolu souvisí lokalizace onemocnění (část těla, na které se melanom nachází) a období, kdy bylo onemocnění pacientovi diagnostikováno. Statisticky řečeno, chceme na hladině významnosti α = 0,05 testovat nezávislost náhodné veličiny X (období diagnózy s hodnotami 1994–2000, 2001–2005 a 2006–2009) a náhodné veličiny Y (lokalizace s hodnotami horní končetina, dolní končetina, trup a hlava a krk). Tabulka 9.2 sumarizuje pozorované četnosti jednotlivých kombinací náhodných veličin X a Y, v tabulce 9.3 jsou pak uvedeny příslušné očekávané četnosti vypočtené pomocí (9.17) na základě marginálních četností z tabulky 9.2. Je vidět, že všechny očekávané četnosti jsou vyšší než 5, což znamená, že pro ověření hypotézy o nezávislosti můžeme použít Pearsonův chí-kvadrát test.

Tab. 9.2: Pozorované četnosti jednotlivých kombinací náhodných veličin X a Y v příkladu 9.3.

Období

= veličina X

Lokalizace = veličina Y

 

Horní končetina

Y = 1

Dolní končetina

Y = 2

Trup

Y = 3

Hlava a krk

Y = 4

Celkem

1994-2000 X = 1

50 = n11

103 = n12

116 = n13

7 = n14

276 = n1.

2001-2005 X = 2

106 = n21

157 = n22

310 = n23

54 = n24

627 = n2.

2006-2009 X = 3

115 = n31

142 = n32

316 = n33

52 = n34

625 = n3.

Celkem

271 = n.1

402 = n.2

742 = n.3

113 = n.4

1528 = n

 

Tab. 9.3: Očekávané četnosti jednotlivých kombinací náhodných veličin X a Y v příkladu 9.3.

Období

= veličina X

Lokalizace = veličina Y

 

Horní končetina

Y = 1

Dolní končetina

Y = 2

Trup

Y = 3

Hlava a krk

Y = 4

Celkem

1994-2000 X = 1

e11 = 48.95

e12 = 72.61

e13 = 134.03

e14 = 20.41

276

2001-2005 X = 2

e21 = 111.20

e22 = 164.96

e23 = 304.47

e24 = 46.37

627

2006-2009 X = 3

e31 = 110.85

e32 = 164.43

e33 = 303.50

e34 = 46.22

625

Celkem

271

402

742

113

1528

 

Pro výpočet testové statistiky X2 musíme dosadit hodnoty z tabulek 9.2 a 9.3 do vztahu (9.18), dosazení a vyhodnocení jsou následující:

               

              

                

 

(9.20)

Výslednou hodnotu statistiky X2 srovnáme s kritickou hodnotou rozdělení chí-kvadrát s parametrem (r – 1)(c – 1) = (3 – 1)(4 – 1) = 6, která přísluší hladině významnosti α = 0,05. Tou je kvantil . Vidíme, že realizace testové statistiky, číslo 30,41, překročila kritickou hodnotu, a tudíž můžeme zamítnout nulovou hypotézu o nezávislosti lokalizace onemocnění a období diagnózy. Můžeme říci, že se s obdobím částečně mění i lokalizace kožních nádorů. Tento závěr není úplně překvapivý, neboť kromě jiného může souviset i s rozvojem a oblibou solárií.

 
vytvořil Institut biostatistiky a analýz Masarykovy univerzity | | zpětné odkazy | validní XHTML 1.0 Strict