Stejně jako Pearsonův test je i chí-kvadrát test dobré shody primárně určen pro hodnocení diskrétních náhodných veličin, kdy předpokládáme, že náhodná veličina X nabývá r různých hodnot A₁, A₂, …, A_r, každé s pravděpodobností p₁, p₂, …, p_r. Zároveň platí, že . Pokud je uvažovaný pravděpodobnostní model správný, pak by se v případě realizace náhodného výběru o rozsahu n měl počet pozorování v jednotlivých variantách, tzn. pozorované četnosti n_i, blížit hodnotě očekávaných četností e_i = np_i. Samozřejmě platí . V případě, že náhodná veličina X má předpokládané rozdělení pravděpodobnosti (H₀ platí), má statistika X² chí-kvadrát rozdělení s r – 1 stupni volnosti, tedy platí

(9.25)

Nulovou hypotézu o shodě rozdělení veličiny X s předpokládaným teoretickým rozdělením zamítáme na hladině významnosti α, když realizace testové statistiky překročí příslušný kvantil chí-kvadrát rozdělení, tedy když . Často jsme v situaci, kdy chceme ověřit daný typ rozdělení, ale nemáme žádnou apriorní znalost o parametrech tohoto rozdělení. Ve chvíli, kdy nulovou hypotézou specifikujeme pouze typ rozdělení, ale ne jeho parametry, pak musíme tyto parametry odhadnout z pozorovaných hodnot. Forma testové statistiky se v takovém případě nemění, nicméně za každý takto odhadnutý parametr musíme snížit počet stupňů volnosti testové statistiky o 1.

Chí-kvadrát test dobré shody lze použít i pro spojité náhodné veličiny. Ty sice nenabývají spočetně mnoha (r) hodnot, ale v případě, že rozdělíme obor možných hodnot náhodné veličiny X do r disjunktních intervalů, lze i v tomto případě test dobré shody použít pro testování shody rozdělení. Tento postup lze nejlépe demonstrovat příkladem.

Příklad 9.5. U pacientů s nádorem kůže sledujeme jejich věk. Pro následné použití parametrických testů chceme na hladině významnosti α = 0,05 ověřit, zda lze věk těchto pacientů považovat za náhodnou veličinu s normálním rozdělením pravděpodobnosti. Nemáme však žádnou apriorní informaci o parametrech normálního rozdělení, proto potenciální hodnoty µ a σ² odhadneme z dat. Na základě dat n = 1536 pacientů byl vypočten věkový průměr 56,2 let s výběrovým rozptylem 182,4. Pomocí chí-kvadrát testu dobré shody tedy ověřujeme hypotézu, že věk pacientů s nádorem kůže pochází z rozdělení N(µ = 56,2, σ² = 182,4). Pozorované a očekávané četnosti pacientů dle jednotlivých věkových kategorií jsou sumarizovány v tabulce 9.7.

Tab. 9.7: Pozorované a očekávané četnosti pacientů s nádorem dle věkových kategorií.

itý věkový interval

n_i

e_i

n_i – e_i

0,0–8,3 let

0

0,30

-0,30

8,3–16,7 let

5

2,30

2,70

16,7–25,0 let

20

13,30

6,70

25,0–33,3 let

67

53,09

13,91

33,3–41,7 let

139

146,42

-7,42

41,7–50,0 let

243

279,13

-36,13

50,0–58,3 let

336

367,95

-31,95

58,3–66,7 let

357

335,43

21,57

66,7–75,0 let

267

211,46

55,54

75,0–83,3 let

96

92,16

3,84

83,3–91,7 let

6

27,76

-21,76

91,7–100,0 let

0

6,70

-6,70

Dosadíme-li četnosti z tabulky 9.7 do vztahu (9.25), získáme realizaci testové statistiky ve tvaru

(9.26)

Vzhledem k tomu, že bylo nutné odhadnout oba parametry normálního rozdělení z pozorovaných dat, počítáme stupně volnosti chí-kvadrát rozdělení testové statistiky pomocí výrazu df = r – 1 – 2 = 9. Srovnání realizace testové statistiky X² s kvantilem příslušným hladině významnosti α = 0,05 je následující

(9.27)

Hodnota X² překročila příslušný kvantil, proto zamítáme H₀ o normalitě rozdělení věku pacientů s nádorem kůže.

itý věkový interval	n_i	e_i	n_i – e_i
0,0–8,3 let	0	0,30	-0,30
8,3–16,7 let	5	2,30	2,70
16,7–25,0 let	20	13,30	6,70
25,0–33,3 let	67	53,09	13,91
33,3–41,7 let	139	146,42	-7,42
41,7–50,0 let	243	279,13	-36,13
50,0–58,3 let	336	367,95	-31,95
58,3–66,7 let	357	335,43	21,57
66,7–75,0 let	267	211,46	55,54
75,0–83,3 let	96	92,16	3,84
83,3–91,7 let	6	27,76	-21,76
91,7–100,0 let	0	6,70	-6,70