
Testování nezávislosti (Pearsonův chí-kvadrát test)
Pearsonův chí-kvadrát test je základním a nejpoužívanějším testem nezávislosti v kontingenční tabulce. Nulovou hypotézou je zde tvrzení, že náhodné veličiny a
jsou nezávislé, což znamená, že pravděpodobnost nastání určité varianty náhodné veličiny
neovlivňuje nastání určité varianty náhodné veličiny
. Vyjádřeno pomocí pravděpodobností tedy hypotéza nezávislosti znamená, že
|
(15) |
Test je založen na myšlence srovnání pozorovaných četností (ty jsou dány pozorováním, experimentem) a tzv. očekávaných četností (kalkulovaných za předpokladu platnosti ) jednotlivých kombinací náhodných veličin
a
. Označme
počet subjektů, u nichž nastala situace, že náhodná veličina
je rovna hodnotě
a náhodná veličina
je rovna hodnotě
. Dále definujme tzv. marginální četnosti příslušné
-té variantě veličiny
, respektive
-té variantě veličiny
, jako
|
|
(16) |
Za platnosti nulové hypotézy lze očekávané četnosti jednotlivých kombinací, kdy a zároveň
, které budeme značit
, vypočítat pomocí výrazu
|
(17) |
Karl Pearson již v roce 1904 odvodil, že statistika
|
(18) |
má za platnosti nulové hypotézy o nezávislosti chí-kvadrát rozdělení pravděpodobnosti s parametrem , tedy že platí
. Nulovou hypotézu o nezávislosti
a
zamítáme na hladině významnosti
, když hodnota testové statistiky
přesáhne příslušný
kvantil rozdělení
, tedy když
|
(19) |
Předpoklady Pearsonova chí-kvadrát testu, které musíme před výpočtem vždy ověřit, jsou následující:
- Jednotlivá pozorování sumarizovaná v kontingenční tabulce jsou nezávislá, tedy každý prvek výběrového souboru je zahrnut pouze v jedné buňce kontingenční tabulky.
- Alespoň 80 % buněk kontingenční tabulky má očekávanou četnost
větší než 5 a všechny buňky tabulky (tedy 100 % buněk) mají očekávanou četnost
větší než 2. Tento předpoklad souvisí s asymptotickými vlastnostmi statistiky
a je to tedy stejně důležitý předpoklad jako např. předpoklad normality pozorovaných hodnot v případě skupiny
-testů.
Příklad 3. Při hodnocení souboru pacientů se zhoubným nádorem kůže (melanomem) chceme zjistit, zda spolu souvisí lokalizace onemocnění (část těla, na které se melanom nachází) a období, kdy bylo onemocnění pacientovi diagnostikováno. Statisticky řečeno, chceme na hladině významnosti = 0,05 testovat nezávislost náhodné veličiny
(období diagnózy s hodnotami 1994–2000, 2001–2005 a 2006–2009) a náhodné veličiny
(lokalizace s hodnotami horní končetina, dolní končetina, trup a hlava a krk). Tabulka 2 sumarizuje pozorované četnosti jednotlivých kombinací náhodných veličin
a
, v tabulce 3 jsou pak uvedeny příslušné očekávané četnosti vypočtené pomocí rovnice (17) na základě marginálních četností z tabulky 2. Je vidět, že všechny očekávané četnosti jsou vyšší než 5, což znamená, že pro ověření hypotézy o nezávislosti můžeme použít Pearsonův chí-kvadrát test.
|
Tabulka 3: Očekávané četnosti jednotlivých kombinací náhodných veličin a
v příkladu 3.
![]() |
Pro výpočet testové statistiky musíme dosadit hodnoty z tabulek 2 a 3 do vztahu (18), dosazení a vyhodnocení jsou následující:
|
(20) |
Výslednou hodnotu statistiky srovnáme s kritickou hodnotou rozdělení chí-kvadrát s parametrem
, která přísluší hladině významnosti
. Tou je kvantil
. Vidíme, že realizace testové statistiky, číslo 30,41, překročila kritickou hodnotu, a tudíž můžeme zamítnout nulovou hypotézu o nezávislosti lokalizace onemocnění a období diagnózy. Můžeme říci, že se s obdobím částečně mění i lokalizace kožních nádorů. Tento závěr není úplně překvapivý, neboť kromě jiného může souviset i s rozvojem a oblibou solárií.