Aplikovaná analýza klinických a biologických datBiostatistika pro matematickou biologii Analýza rozptylu (ANOVA) Variabilita výběrových souborů a princip výpočtu

Analýza a management dat pro zdravotnické obory, Analýza klinických dat | Aplikovaná analýza přežití | Biostatistika pro matematickou biologii |

Úvod do biostatistiky |

Literatura |

Vztah pravděpodobnosti, statistiky a biostatistiky |

Data, jejich popis a vizualizace |

Výstupy z výukové jednotky | Typy dat | Význam popisu a vizualizace dat |

Popis a vizualizace kvalitativních dat | Popis a vizualizace kvantitativních dat |

Identifikace odlehlých hodnot | Literatura |

Náhodná veličina, rozdělení pravděpodobnosti a reálná data |

Literatura |

Bodové a intervalové odhady |

Vlastnosti výběrového průměru | Centrální limitní věta |

Intervalové odhady |

Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení | Interpretace intervalu spolehlivosti | Šířka intervalu spolehlivosti |

Úlohy k procvičení | Literatura |

Úvod do testování hypotéz |

Spojitost testování hypotéz s intervaly spolehlivosti | Statistická a praktická významnost | Faktory ovlivňující sílu testu | Problém násobného testování hypotéz |

Literatura |

Testování hypotéz o kvantitativních proměnných |

Výstupy z výukové jednotky | Postup statistického testování | Testy o parametrech jednoho rozdělení |

Testy o střední hodnotě při známém rozptylu (z-test pro jeden výběr) | Testy o střední hodnotě při neznámém rozptylu (t-test pro jeden výběr) | Neparametrický test pro jeden výběr (Wilcoxonův test) | Test o rozdílu párových (závislých) pozorování (párová t-test) |

Testy o parametrech dvou rozdělení |

Test o rozdílu středních hodnot dvou nezávislých výběrů při stejných rozptylech | Test o shodnosti (homogenitě) rozptylů dvou nezávislých výběrů (F-test) | Welchova korekce pro t-test při nestejných rozptylech | Neparametrický test pro dva výběry (Mannův-Whitneyho test) |

Úlohy k procvičení | Literatura |

Analýza rozptylu (ANOVA) |

Výstupy z výukové jednotky | Přínos analýzy rozptylu | Variabilita výběrových souborů a princip výpočtu | Předpoklady analýzy rozptylu a jejich ověření |

Hodnocení normality pozorovaných hodnot |

Neparametrická alternativa analýzy rozptylu-Kruskallův -Wallisův test | Úlohy k procvičení | Literatura |

Testování hypotéz o kvalitativních proměnných |

Výstupy z výukové jednotky | Úvod | Testování hypotéz o podílech |

Interval spolehlivosti pro parametr π binomického rozdělení | Test pro podíl u jednoho výběru |

Analýza kontingenčních tabulek |

Testování nezávislosti (Pearsonův chí-kvadrát test) | Test hypotézy o symetrii – McNemarův test |

Fisherův exaktní test | Testy o rozdělení náhodné veličiny |

Chí-kvadrát test dobré shody |

Úlohy k procvičení | Literatura |

Asociace ve čtyřpolní tabulce |

Základy korelační analýzy |

Výstupy z výukové jednotky | Úvod | Pearsonův korelační koeficient |

Výpočet Pearsonova korelačního koeficientu | Interval spolehlivosti pro Pearsonův korelační koeficient | Test hypotézy o nulové korelaci dvou náhodných veličin |

Spearmanův korelační koeficient | Úlohy k procvičení | Literatura |

Variabilita výběrových souborů a princip výpočtu

Abychom mohli adekvátně vysvětlit princip výpočtu analýzy rozptylu, je třeba nejprve zavést značení a předpoklady, na nichž je analýza rozptylu postavena. Obecně uvažujeme k nezávislých náhodných výběrů Y_1j, Y_2j, …, Y_kj s rozsahy n₁, n₂, …, n_k, o nichž předpokládáme, že pochází z normálního rozdělení, tedy že pro j-té pozorování z i-tého výběru platí Y_ij ~ N(μ_i,σ²). Jinými slovy předpokládáme normalitu hodnot a homogenitu rozptylů u všech k náhodných výběrů (parametr odpovídající rozptylu není závislý na konkrétním výběru a je tedy stejný pro všech k náhodných výběrů). Na základě výše uvedených předpokladů pak definujeme skupinové průměry pro jednotlivé výběry a celkový průměr pro všechny výběry dohromady, které uvádí tabulka 8.1.

Tab. 8.1: Zavedení značení k analýze rozptylu.

	Rozsah výběru	Výběrový součet	Výběrový průměr
Výběr 1	n₁
Výběr 2	n₂
:	:	:	:
Výběr k	n_k
Všechny výběry	n

Dále zavádíme tři odhady variability, které charakterizují pozorovaná data. První je tzv. celkový součet čtverců (total sum of squares), S_T, který odráží celkovou variabilitu ve výběrovém souboru. Celkový součet čtverců je definován pomocí kvadrátů rozdílů pozorovaných hodnot od celkového průměru následovně:

(8.3)

Celkový součet čtverců je jakožto funkce pozorovaných hodnot statistikou, která má svoje rozdělení pravděpodobnosti. Lze ukázat, že za platnosti nulové hypotézy má statistika S_T chí-kvadrát rozdělení s počtem stupňů volnosti, který se označuje jako df_T a je roven n – 1.

Další formou variability je tzv. skupinový součet čtverců (group sum of squares), S_A, který odráží variabilitu mezi skupinami, respektive skupinovými průměry. Jinými slovy, skupinový součet čtverců popisuje variabilitu příslušnou vlivu sledované vysvětlující proměnné. Lze ho spočítat pomocí součtu kvadrátů rozdílů výběrových průměrů od celkového průměru. Statistiku S_A definujeme takto:

(8.4)

Stejně jako v případě S_T, má i statistika S_A chí-kvadrát rozdělení pravděpodobnosti, tentokrát ale se stupni volnosti df_A = k – 1.

Třetí statistikou odrážející variabilitu pozorovaných dat je tzv. reziduální součet čtverců (residual sum of squares), S_e, odpovídající variabilitě v rámci skupin. Spočítáme ho tak, že přes všechny výběry a pozorování sečteme kvadráty rozdílů pozorovaných hodnot od příslušných skupinových průměrů, což lze zapsat takto:

(8.5)

Pro statistiku S_e lze ukázat, že platí S_e ~ χ²(n – k).

Příklad 8.1. Tabulka 8.2 obsahuje na fiktivních datech příklad výpočtu jednotlivých součtů čtverců. V příkladu předpokládáme tři výběrové soubory, přičemž každý z nich obsahuje tři pozorované hodnoty.

Tab. 8.2: Fiktivní datový soubor se třemi srovnávanými skupinami.

Léčba

Pozorovaná hodnota

Skupinový průměr

Skupinový průměr

mínus

celkový průměr

Pozorovaná hodnota

mínus

skupinový průměr

Pozorovaná hodnota mínus

celkový průměr

A

10

12

-4

-2

-6

A

12

12

-4

0

-4

A

14

12

-4

2

-2

B

19

20

4

-1

3

B

20

20

4

0

4

B

21

20

4

1

5

C

14

16

0

-2

-2

C

16

16

0

0

0

C

18

16

0

2

2

Celkový průměr = 16

Součet čtverců = 96

Součet čtverců = 18

Součet čtverců = 114

V tabulce 8.2 si lze všimnout, že reziduální součet čtverců a skupinový součet čtverců dávají po sečtení dohromady celkový součet čtverců. Toto není náhoda, skutečně lze ukázat, že platí

(8.6)

což znamená, že celková variabilita pozorovaných hodnot se dá rozložit na variabilitu v rámci skupin a variabilitu mezi skupinami:

(8.7)

Stejný vztah jako (8.6) platí i pro stupně volnosti příslušné statistikám S_T, S_A a S_e.

Výpočet analýzy rozptylu je založen na srovnání skupinového a reziduálního součtu čtverců, jinak řečeno ANOVA srovnává pozorovanou variabilitu (rozptyl hodnot) mezi výběry s pozorovanou variabilitou (rozptylem hodnot) uvnitř výběrových souborů. Za předpokladu, že hodnoty všech k srovnávaných výběrů pocházejí z normálního rozdělení se stejným rozptylem, σ², představuje výraz

(8.8)

výběrový odhad tohoto neznámého parametru. Tento podíl odpovídá průměrnému kvadrátu rozdílů pozorovaných hodnot od příslušných skupinových průměrů. Navíc, za platnosti nulové hypotézy představuje i výraz

(8.9)

výběrový odhad σ². Tento podíl odpovídá průměrnému kvadrátu rozdílů výběrových průměrů od celkového průměru. Platí-li tedy nulová hypotéza, výraz (8.9), vycházející z výběrových průměrů, bude zhruba stejný jako výraz (8.8), vycházející z pozorovaných hodnot. Naopak, neplatí-li nulová hypotéza, lze očekávat, že výraz (8.9) bude větší než výraz (8.8), neboť lze očekávat velkou variabilitu mezi výběrovými průměry (homogenita rozptylů uvnitř výběrů je základním předpokladem analýzy rozptylu). Testovou statistikou v analýze rozptylu je statistika F, která je podílem výrazů (8.9) a (8.8) a která má za platnosti H₀ Fisherovo F rozdělení s parametry k – 1 a n – k. Tedy

(8.10)

V případě, že neplatí nulová hypotéza, bude čitatel statistiky F větší než její jmenovatel a výsledná hodnota statistiky F tak bude větší než 1. Hranici pro zamítnutí nulové hypotézy ale opět představuje kvantil (kritická hodnota) rozdělení F(k – 1, n – k) příslušný zvolené hladině významnosti testu α. Případně nulovou hypotézu zamítneme/nezamítneme na základě srovnání výsledné p-hodnoty testu se zvolenou hladinou významnosti testu α. Výsledné výpočty jsou standardně zaznamenávány do tzv. tabulky analýzy rozptylu, kterou pro data z příkladu 8.1 představuje tabulka 8.3 (předpokládejme test na hladině významnosti α = 0,05). Z této tabulky je vidět, že zamítáme nulovou hypotézu o tom, že pozorované hodnoty pocházejí z normálního rozdělení se stejnou střední hodnotou, neboť při srovnání výsledné p-hodnoty testu se zvolenou hladinou významnosti platí, že 0,004 < 0,05. Pokud bychom chtěli rozhodnout o platnosti H₀ pomocí srovnání výsledné hodnoty statistiky F (F = 16) s kritickou hodnotou, pak příslušný kvantil F rozdělení je . Přitom platí 16 > 5,14, což je v souladu se závěrem pomocí výsledné p-hodnoty.

Tab. 8.3: Sumarizace výsledků analýzy rozptylu pro fiktivní data z příkladu 8.1.

Zdroj variability

Součet čtverců

Počet stupňů volnosti

Průměrný čtverec

Statistika F

p-hodnota

Mezi skupinami

S_A = 96

df_A = k – 1 = 2

MS_A = 48

F = 16

0,004

Uvnitř skupin

S_e = 18

df_e = n – k = 6

MS_e = 3

Celkem

S_T = 114

df_T = n – 1 = 8

Léčba	Pozorovaná hodnota	Skupinový průměr	Skupinový průměr mínus celkový průměr	Pozorovaná hodnota mínus skupinový průměr	Pozorovaná hodnota mínus celkový průměr
A	10	12	-4	-2	-6
A	12	12	-4	0	-4
A	14	12	-4	2	-2
B	19	20	4	-1	3
B	20	20	4	0	4
B	21	20	4	1	5
C	14	16	0	-2	-2
C	16	16	0	0	0
C	18	16	0	2	2
	Celkový průměr = 16	Součet čtverců = 96	Součet čtverců = 18	Součet čtverců = 114

Zdroj variability	Součet čtverců	Počet stupňů volnosti	Průměrný čtverec	Statistika F	p-hodnota
Mezi skupinami	S_A = 96	df_A = k – 1 = 2	MS_A = 48	F = 16	0,004
Uvnitř skupin	S_e = 18	df_e = n – k = 6	MS_e = 3
Celkem	S_T = 114	df_T = n – 1 = 8

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity