Testování nezávislosti (Pearsonův chí-kvadrát test)
Pearsonův chí-kvadrát test je základním a nejpoužívanějším testem nezávislosti v kontingenční tabulce. Nulovou hypotézou je zde tvrzení, že náhodné veličiny a jsou nezávislé, což znamená, že pravděpodobnost nastání určité varianty náhodné veličiny neovlivňuje nastání určité varianty náhodné veličiny . Vyjádřeno pomocí pravděpodobností tedy hypotéza nezávislosti znamená, že
,. |
(15) |
Test je založen na myšlence srovnání pozorovaných četností (ty jsou dány pozorováním, experimentem) a tzv. očekávaných četností (kalkulovaných za předpokladu platnosti ) jednotlivých kombinací náhodných veličin a . Označme počet subjektů, u nichž nastala situace, že náhodná veličina je rovna hodnotě a náhodná veličina je rovna hodnotě . Dále definujme tzv. marginální četnosti příslušné -té variantě veličiny , respektive -té variantě veličiny , jako
(16) |
Za platnosti nulové hypotézy lze očekávané četnosti jednotlivých kombinací, kdy a zároveň , které budeme značit , vypočítat pomocí výrazu
. |
(17) |
Karl Pearson již v roce 1904 odvodil, že statistika
|
(18) |
má za platnosti nulové hypotézy o nezávislosti chí-kvadrát rozdělení pravděpodobnosti s parametrem , tedy že platí . Nulovou hypotézu o nezávislosti a zamítáme na hladině významnosti , když hodnota testové statistiky přesáhne příslušný kvantil rozdělení , tedy když
. |
(19) |
Předpoklady Pearsonova chí-kvadrát testu, které musíme před výpočtem vždy ověřit, jsou následující:
- Jednotlivá pozorování sumarizovaná v kontingenční tabulce jsou nezávislá, tedy každý prvek výběrového souboru je zahrnut pouze v jedné buňce kontingenční tabulky.
- Alespoň 80 % buněk kontingenční tabulky má očekávanou četnost větší než 5 a všechny buňky tabulky (tedy 100 % buněk) mají očekávanou četnost větší než 2. Tento předpoklad souvisí s asymptotickými vlastnostmi statistiky a je to tedy stejně důležitý předpoklad jako např. předpoklad normality pozorovaných hodnot v případě skupiny -testů.
Příklad 3. Při hodnocení souboru pacientů se zhoubným nádorem kůže (melanomem) chceme zjistit, zda spolu souvisí lokalizace onemocnění (část těla, na které se melanom nachází) a období, kdy bylo onemocnění pacientovi diagnostikováno. Statisticky řečeno, chceme na hladině významnosti = 0,05 testovat nezávislost náhodné veličiny (období diagnózy s hodnotami 1994–2000, 2001–2005 a 2006–2009) a náhodné veličiny (lokalizace s hodnotami horní končetina, dolní končetina, trup a hlava a krk). Tabulka 2 sumarizuje pozorované četnosti jednotlivých kombinací náhodných veličin a , v tabulce 3 jsou pak uvedeny příslušné očekávané četnosti vypočtené pomocí rovnice (17) na základě marginálních četností z tabulky 2. Je vidět, že všechny očekávané četnosti jsou vyšší než 5, což znamená, že pro ověření hypotézy o nezávislosti můžeme použít Pearsonův chí-kvadrát test.
Tabulka 3: Očekávané četnosti jednotlivých kombinací náhodných veličin a v příkladu 3.
Pro výpočet testové statistiky musíme dosadit hodnoty z tabulek 2 a 3 do vztahu (18), dosazení a vyhodnocení jsou následující:
. |
(20) |
Výslednou hodnotu statistiky srovnáme s kritickou hodnotou rozdělení chí-kvadrát s parametrem , která přísluší hladině významnosti . Tou je kvantil . Vidíme, že realizace testové statistiky, číslo 30,41, překročila kritickou hodnotu, a tudíž můžeme zamítnout nulovou hypotézu o nezávislosti lokalizace onemocnění a období diagnózy. Můžeme říci, že se s obdobím částečně mění i lokalizace kožních nádorů. Tento závěr není úplně překvapivý, neboť kromě jiného může souviset i s rozvojem a oblibou solárií.