Slovník | Vyhledávání | Mapa webu
 
Aplikovaná analýza klinických a biologických datAnalýza a management dat pro zdravotnické obory, Analýza klinických dat Testování hypotéz o kvalitativních proměnných Analýza kontingenčních tabulek Testování nezávislosti (Pearsonův chí-kvadrát test)

Logo Matematická biologie

Testování nezávislosti (Pearsonův chí-kvadrát test)

Pearsonův chí-kvadrát test je základním a nejpoužívanějším testem nezávislosti v kontingenční tabulce. Nulovou hypotézou je zde tvrzení, že náhodné veličiny a jsou nezávislé, což znamená, že pravděpodobnost nastání určité varianty náhodné veličiny neovlivňuje nastání určité varianty náhodné veličiny . Vyjádřeno pomocí pravděpodobností tedy hypotéza nezávislosti znamená, že

,.

(15)

Test je založen na myšlence srovnání pozorovaných četností (ty jsou dány pozorováním, experimentem) a tzv. očekávaných četností (kalkulovaných za předpokladu platnosti ) jednotlivých kombinací náhodných veličin a . Označme počet subjektů, u nichž nastala situace, že náhodná veličina je rovna hodnotě a náhodná veličina je rovna hodnotě . Dále definujme tzv. marginální četnosti příslušné -té variantě veličiny , respektive -té variantě veličiny , jako

(16)

Za platnosti nulové hypotézy lze očekávané četnosti jednotlivých kombinací, kdy a zároveň , které budeme značit , vypočítat pomocí výrazu

.

(17)

Karl Pearson již v roce 1904 odvodil, že statistika

(18)

má za platnosti nulové hypotézy o nezávislosti chí-kvadrát rozdělení pravděpodobnosti s parametrem , tedy že platí . Nulovou hypotézu o nezávislosti a zamítáme na hladině významnosti , když hodnota testové statistiky přesáhne příslušný kvantil rozdělení , tedy když

.

(19)

Předpoklady Pearsonova chí-kvadrát testu, které musíme před výpočtem vždy ověřit, jsou následující:

  • Jednotlivá pozorování sumarizovaná v kontingenční tabulce jsou nezávislá, tedy každý prvek výběrového souboru je zahrnut pouze v jedné buňce kontingenční tabulky.
  • Alespoň 80 % buněk kontingenční tabulky má očekávanou četnost větší než 5 a všechny buňky tabulky (tedy 100 % buněk) mají očekávanou četnost větší než 2. Tento předpoklad souvisí s asymptotickými vlastnostmi statistiky a je to tedy stejně důležitý předpoklad jako např. předpoklad normality pozorovaných hodnot v případě skupiny -testů.

Příklad 3. Při hodnocení souboru pacientů se zhoubným nádorem kůže (melanomem) chceme zjistit, zda spolu souvisí lokalizace onemocnění (část těla, na které se melanom nachází) a období, kdy bylo onemocnění pacientovi diagnostikováno. Statisticky řečeno, chceme na hladině významnosti = 0,05 testovat nezávislost náhodné veličiny (období diagnózy s hodnotami 1994–2000, 2001–2005 a 2006–2009) a náhodné veličiny (lokalizace s hodnotami horní končetina, dolní končetina, trup a hlava a krk). Tabulka 2 sumarizuje pozorované četnosti jednotlivých kombinací náhodných veličin a , v tabulce 3 jsou pak uvedeny příslušné očekávané četnosti vypočtené pomocí rovnice (17) na základě marginálních četností z tabulky 2. Je vidět, že všechny očekávané četnosti jsou vyšší než 5, což znamená, že pro ověření hypotézy o nezávislosti můžeme použít Pearsonův chí-kvadrát test.

Tabulka 2: Pozorované četnosti jednotlivých kombinací náhodných veličin a v příkladu 3.


Tabulka 3: Očekávané četnosti jednotlivých kombinací náhodných veličin a v příkladu 3.

Pro výpočet testové statistiky musíme dosadit hodnoty z tabulek 2 a 3 do vztahu (18), dosazení a vyhodnocení jsou následující:

.

(20)

Výslednou hodnotu statistiky srovnáme s kritickou hodnotou rozdělení chí-kvadrát s parametrem , která přísluší hladině významnosti . Tou je kvantil . Vidíme, že realizace testové statistiky, číslo 30,41, překročila kritickou hodnotu, a tudíž můžeme zamítnout nulovou hypotézu o nezávislosti lokalizace onemocnění a období diagnózy. Můžeme říci, že se s obdobím částečně mění i lokalizace kožních nádorů. Tento závěr není úplně překvapivý, neboť kromě jiného může souviset i s rozvojem a oblibou solárií.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity