Aplikovaná analýza klinických a biologických datBiostatistika pro matematickou biologii Testování hypotéz o kvalitativních proměnných Analýza kontingenčních tabulek Testování nezávislosti (Pearsonův chí-kvadrát test)

Analýza a management dat pro zdravotnické obory, Analýza klinických dat | Aplikovaná analýza přežití | Biostatistika pro matematickou biologii |

Úvod do biostatistiky |

Literatura |

Vztah pravděpodobnosti, statistiky a biostatistiky |

Data, jejich popis a vizualizace |

Výstupy z výukové jednotky | Typy dat | Význam popisu a vizualizace dat |

Popis a vizualizace kvalitativních dat | Popis a vizualizace kvantitativních dat |

Identifikace odlehlých hodnot | Literatura |

Náhodná veličina, rozdělení pravděpodobnosti a reálná data |

Literatura |

Bodové a intervalové odhady |

Vlastnosti výběrového průměru | Centrální limitní věta |

Intervalové odhady |

Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení | Interpretace intervalu spolehlivosti | Šířka intervalu spolehlivosti |

Úlohy k procvičení | Literatura |

Úvod do testování hypotéz |

Spojitost testování hypotéz s intervaly spolehlivosti | Statistická a praktická významnost | Faktory ovlivňující sílu testu | Problém násobného testování hypotéz |

Literatura |

Testování hypotéz o kvantitativních proměnných |

Výstupy z výukové jednotky | Postup statistického testování | Testy o parametrech jednoho rozdělení |

Testy o střední hodnotě při známém rozptylu (z-test pro jeden výběr) | Testy o střední hodnotě při neznámém rozptylu (t-test pro jeden výběr) | Neparametrický test pro jeden výběr (Wilcoxonův test) | Test o rozdílu párových (závislých) pozorování (párová t-test) |

Testy o parametrech dvou rozdělení |

Test o rozdílu středních hodnot dvou nezávislých výběrů při stejných rozptylech | Test o shodnosti (homogenitě) rozptylů dvou nezávislých výběrů (F-test) | Welchova korekce pro t-test při nestejných rozptylech | Neparametrický test pro dva výběry (Mannův-Whitneyho test) |

Úlohy k procvičení | Literatura |

Analýza rozptylu (ANOVA) |

Výstupy z výukové jednotky | Přínos analýzy rozptylu | Variabilita výběrových souborů a princip výpočtu | Předpoklady analýzy rozptylu a jejich ověření |

Hodnocení normality pozorovaných hodnot |

Neparametrická alternativa analýzy rozptylu-Kruskallův -Wallisův test | Úlohy k procvičení | Literatura |

Testování hypotéz o kvalitativních proměnných |

Výstupy z výukové jednotky | Úvod | Testování hypotéz o podílech |

Interval spolehlivosti pro parametr π binomického rozdělení | Test pro podíl u jednoho výběru |

Analýza kontingenčních tabulek |

Testování nezávislosti (Pearsonův chí-kvadrát test) | Test hypotézy o symetrii – McNemarův test |

Fisherův exaktní test | Testy o rozdělení náhodné veličiny |

Chí-kvadrát test dobré shody |

Úlohy k procvičení | Literatura |

Asociace ve čtyřpolní tabulce |

Základy korelační analýzy |

Výstupy z výukové jednotky | Úvod | Pearsonův korelační koeficient |

Výpočet Pearsonova korelačního koeficientu | Interval spolehlivosti pro Pearsonův korelační koeficient | Test hypotézy o nulové korelaci dvou náhodných veličin |

Spearmanův korelační koeficient | Úlohy k procvičení | Literatura |

Testování nezávislosti (Pearsonův chí-kvadrát test)

Pearsonův chí-kvadrát test je základním a nejpoužívanějším testem nezávislosti v kontingenční tabulce. Nulovou hypotézou je zde tvrzení, že náhodné veličiny X a Y jsou nezávislé, což znamená, že pravděpodobnost nastání určité varianty náhodné veličiny X neovlivňuje nastání určité varianty náhodné veličiny Y. Vyjádřeno pomocí pravděpodobností tedy hypotéza nezávislosti znamená, že

(9.15)

Test je založen na myšlence srovnání pozorovaných četností (ty jsou dány pozorováním, experimentem) a tzv. očekávaných četností (kalkulovaných za předpokladu platnosti H₀) jednotlivých kombinací náhodných veličin X a Y. Označme n_ij počet subjektů, u nichž nastala situace, že náhodná veličina X je rovna hodnotě i a náhodná veličina Y je rovna hodnotě j. Dále definujme tzv. marginální četnosti příslušné i-té variantě veličiny X, respektive j-té variantě veličiny Y, jako

(9.16)

Za platnosti nulové hypotézy lze očekávané četnosti jednotlivých kombinací, kdy X = i a zároveň Y = j, které budeme značit e_ij, vypočítat pomocí výrazu

(9.17)

Karl Pearson již v roce 1904 odvodil, že statistika

(9.18)

má za platnosti nulové hypotézy o nezávislosti chí-kvadrát rozdělení pravděpodobnosti s parametrem (r – 1)(c – 1), tedy že platí . Nulovou hypotézu o nezávislosti X a Y zamítáme na hladině významnosti α, když hodnota testové statistiky X² přesáhne příslušný 100(1 – α)% kvantil rozdělení χ², tedy když

(9.19)

Předpoklady Pearsonova chí-kvadrát testu, které musíme před výpočtem vždy ověřit, jsou následující:

Jednotlivá pozorování sumarizovaná v kontingenční tabulce jsou nezávislá, tedy každý prvek výběrového souboru je zahrnut pouze v jedné buňce kontingenční tabulky.
Alespoň 80 % buněk kontingenční tabulky má očekávanou četnost (e_ij) větší než 5 a všechny buňky tabulky (tedy 100 % buněk) mají očekávanou četnost (e_ij) větší než 2. Tento předpoklad souvisí s asymptotickými vlastnostmi statistiky X² a je to tedy stejně důležitý předpoklad jako např. předpoklad normality pozorovaných hodnot v případě skupiny t-testů.

Příklad 9.3. Při hodnocení souboru pacientů se zhoubným nádorem kůže (melanomem) chceme zjistit, zda spolu souvisí lokalizace onemocnění (část těla, na které se melanom nachází) a období, kdy bylo onemocnění pacientovi diagnostikováno. Statisticky řečeno, chceme na hladině významnosti α = 0,05 testovat nezávislost náhodné veličiny X (období diagnózy s hodnotami 1994–2000, 2001–2005 a 2006–2009) a náhodné veličiny Y (lokalizace s hodnotami horní končetina, dolní končetina, trup a hlava a krk). Tabulka 9.2 sumarizuje pozorované četnosti jednotlivých kombinací náhodných veličin X a Y, v tabulce 9.3 jsou pak uvedeny příslušné očekávané četnosti vypočtené pomocí (9.17) na základě marginálních četností z tabulky 9.2. Je vidět, že všechny očekávané četnosti jsou vyšší než 5, což znamená, že pro ověření hypotézy o nezávislosti můžeme použít Pearsonův chí-kvadrát test.

Tab. 9.2: Pozorované četnosti jednotlivých kombinací náhodných veličin X a Y v příkladu 9.3.

Období

= veličina X

Lokalizace = veličina Y

Horní končetina

Y = 1

Dolní končetina

Y = 2

Trup

Y = 3

Hlava a krk

Y = 4

Celkem

1994-2000 X = 1

50 = n₁₁

103 = n₁₂

116 = n₁₃

7 = n₁₄

276 = n_1.

2001-2005 X = 2

106 = n₂₁

157 = n₂₂

310 = n₂₃

54 = n₂₄

627 = n_2.

2006-2009 X = 3

115 = n₃₁

142 = n₃₂

316 = n₃₃

52 = n₃₄

625 = n_3.

Celkem

271 = n_.1

402 = n_.2

742 = n_.3

113 = n_.4

1528 = n

Tab. 9.3: Očekávané četnosti jednotlivých kombinací náhodných veličin X a Y v příkladu 9.3.

Období = veličina X	Lokalizace = veličina Y
Období = veličina X	Horní končetina Y = 1	Dolní končetina Y = 2	Trup Y = 3	Hlava a krk Y = 4	Celkem
1994-2000 X = 1	e₁₁ = 48.95	e₁₂ = 72.61	e₁₃ = 134.03	e₁₄ = 20.41	276
2001-2005 X = 2	e₂₁ = 111.20	e₂₂ = 164.96	e₂₃ = 304.47	e₂₄ = 46.37	627
2006-2009 X = 3	e₃₁ = 110.85	e₃₂ = 164.43	e₃₃ = 303.50	e₃₄ = 46.22	625
Celkem	271	402	742	113	1528

Pro výpočet testové statistiky X² musíme dosadit hodnoty z tabulek 9.2 a 9.3 do vztahu (9.18), dosazení a vyhodnocení jsou následující:

(9.20)

Výslednou hodnotu statistiky X² srovnáme s kritickou hodnotou rozdělení chí-kvadrát s parametrem (r – 1)(c – 1) = (3 – 1)(4 – 1) = 6, která přísluší hladině významnosti α = 0,05. Tou je kvantil . Vidíme, že realizace testové statistiky, číslo 30,41, překročila kritickou hodnotu, a tudíž můžeme zamítnout nulovou hypotézu o nezávislosti lokalizace onemocnění a období diagnózy. Můžeme říci, že se s obdobím částečně mění i lokalizace kožních nádorů. Tento závěr není úplně překvapivý, neboť kromě jiného může souviset i s rozvojem a oblibou solárií.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity