Fisherův exaktní test
Definice čtyřpolní tabulky je zřejmá – je to nejjednodušší možná kontingenčí tabulka, kdy obě sledované náhodné veličiny mají pouze dvě varianty, kterých mohou nabývat. Stejně jako v případě obecné kontingenční tabulky můžeme pomocí statistických metod rozhodovat o statistické závislosti dvou sledovaných veličin, v případě čtyřpolní tabulky můžeme navíc velmi jednoduše rozhodovat i o míře této závislosti (o těsnosti statistické vazby). Příklad čtyřpolní tabulky představuje tabulka 9.4, kde jsou četnosti jednotlivých možných kombinací náhodných veličin X a Y označeny písmeny a, b, c a d.
Tab. 9.4: Ukázka čtyřpolní tabulky.
Náhodná veličina X |
Náhodná veličina Y |
Celkem |
|
Y = 1 |
Y = 2 |
||
X = 1 |
a |
b |
a + b |
X = 2 |
c |
d |
c + d |
Celkem |
a + c |
b + d |
a + b + c + d |
Při rozhodování o nezávislosti ve čtyřpolní tabulce můžeme samozřejmě použít Pearsonův chí-kvadrát test, neboť tento test lze použít na jakoukoliv kontingenční tabulku, nicméně u tohoto testu je nutné hlídat jeho předpoklady: 80 % očekávaných četností, eij, větších než 5 totiž v případě čtyřpolní tabulky znamená 100 % očekávaných četností, které mají být větší než 5. Nedodržení předpokladů pro Pearsonův chí-kvadrát test může stejně jako u t-testu a analýzy rozptylu vést k nesmyslným závěrům. Situace s malými pozorovanými a tedy i očekávanými četnostmi jsou ale bohužel v medicíně i biologii relativně časté, a to samé platí i pro čtyřpolní tabulky. Zlatým standardem pro hodnocení čtyřpolních tabulek se proto stal jiný test, tzv. Fisherův exaktní test (Fisher exact test), který je založen na výpočtu přesné (exaktní) pravděpodobnosti, se kterou bychom za platnosti nulové hypotézy o nezávislosti veličin X a Y získali naší konkrétní realizaci čtyřpolní tabulky.
Fisherův exaktní test byl odvozen primárně pro čtyřpolní tabulky, nicméně existuje i jeho zobecnění na libovolnou kontingenční tabulku [2]. Nulovou hypotézou je v případě Fisherova testu nezávislost sledovaných veličin X a Y, což znamená, že pokud H0 platí, měly by pozorované četnosti odpovídat očekávaným četnostem. Hlavní myšlenkou Fisherova exaktního testu je výpočet pravděpodobnosti, se kterou bychom získali čtyřpolní tabulky stejně nebo více vzdálené od nulové hypotézy při zachování pozorovaných marginálních četností. Zachování marginálních četností znamená, že se soustředíme pouze na situace, které odpovídají stejným četnostem jednotlivých variant náhodných veličin, jako jsme pozorovali v našem experimentu.
Pravděpodobnost získání konkrétního výsledku čtyřpolní tabulky s danými marginálními četnostmi lze vypočítat pomocí vzorce
(9.23) |
Výpočet testové statistiky potom probíhá následovně: spočítáme pravděpodobnosti p*, příslušné všem možným tabulkám, které lze získat při zachování marginálních četností. Výsledná testová statistika, respektive p-hodnota, Fisherova exaktního testu je součtem pravděpodobností p* menších nebo stejných jako hodnota p, která přísluší čtyřpolní tabulce sestrojené na základě pozorovaných hodnot. Sčítáme tak pravděpodobnosti možností, které jsou více nebo stejně vzdáleny od nulové hypotézy, jinými slovy tedy představují extrémnější nebo stejně extrémní variantu výsledku. Z výpočetního postupu je vidět, že Fisherův exaktní test není úplně standardním testem, neboť roli testové statistiky zde, na rozdíl od všech předchozích testů, hraje přímo p-hodnota. Tu potom pro rozhodnutí o platnosti nulové hypotézy srovnáme se zvolenou hladinou významnosti testu α, je-li p-hodnota testu menší než zvolené α, zamítáme nulovou hypotézu o nezávislosti veličin X a Y.
Příklad 9.4. Uvažujme opět skupinu 60 studentů matematické biologie s tím, že tentokrát budeme zjišťovat, zda jejich barva očí (modrá barva očí nebo jiná barva očí) souvisí s nošením brýlí (používá nebo nepoužívá brýle). Pomocí Fisherova exaktního testu chceme testovat nulovou hypotézu o nezávislosti těchto nominálních veličin. Pozorovaná data, respektive pozorovanou čtyřpolní tabulku představuje tabulka 9.5.
Tab. 9.5: Počty studentů matematické biologie dle modré barvy očí a nošení brýlí.
Studenti oboru Matematická biologie |
Počet studentů s modrou barvou očí |
Počet studentů s jinou barvou očí |
Celkový počet studentů |
Studenti bez brýlí |
a = 11 |
b = 31 |
a + b = 42 |
Studenti s brýlemi |
c = 6 |
d = 12 |
c + d = 18 |
Celkem |
a + c = 17 |
b + d = 43 |
a + b + c + d = 60 |
Pravděpodobnost příslušná pozorované čtyřpolní tabulce je dle vztahu (9.23) následující
(9.24) |
Dále vypočítejme pravděpodobnosti p*, pro jednotlivé možnosti kontingenční tabulky se zachováním marginálních četností, tedy se zachováním řádkových a sloupcových součtů. Výsledek zobrazuje tabulka 9.6.
Tab. 9.6: Pravděpodobnosti příslušné jednotlivým možnostem kontingenční tabulky z příkladu 9.4.
Možnosti |
a |
b |
c |
d |
p* |
1. |
0 |
42 |
17 |
1 |
4,6 × 10-14 |
2. |
1 |
41 |
16 |
2 |
1,7 × 10-11 |
3. |
2 |
40 |
15 |
3 |
1,8 × 10-9 |
4. |
3 |
39 |
14 |
4 |
9,1 × 10-8 |
5. |
4 |
38 |
13 |
5 |
2,5 × 10-6 |
6. |
5 |
37 |
12 |
6 |
4,1 × 10-5 |
7. |
6 |
36 |
11 |
7 |
4,3 × 10-4 |
8. |
7 |
35 |
10 |
8 |
0,003 |
9. |
8 |
34 |
9 |
9 |
0,015 |
10. |
9 |
33 |
8 |
10 |
0,050 |
11. |
10 |
32 |
7 |
11 |
0,121 |
12. |
11 |
31 |
6 |
12 |
0,205 |
13. |
12 |
30 |
5 |
13 |
0,245 |
14. |
13 |
29 |
4 |
14 |
0,202 |
15. |
14 |
28 |
3 |
15 |
0,111 |
16. |
15 |
27 |
2 |
16 |
0,039 |
17. |
16 |
26 |
1 |
17 |
0,008 |
18. |
17 |
25 |
0 |
18 |
6,6 × 10-4 |
Výsledná p-hodnota Fisherova exaktního testu je dána součtem p* všech řádků kromě řádku 13, neboť námi pozorované hodnoty, odpovídající řádku 12, představují vzhledem k nulové hypotéze druhý nejběžnější výsledek (p = 0,205). Pro všechny řádky tabulky kromě řádku 13 tedy platí p* ≤ p. P-hodnotu testu tedy spočítáme jako 1 – 0,245 = 0,755 a vzhledem k tomu, že platí 0,755 > 0,05, nezamítáme na hladině významnosti α = 0,05 nulovou hypotézu o nezávislosti barvy očí a nošení brýlí u studentů matematické biologie.