Slovník | Vyhledávání | Mapa webu
 
Aplikovaná analýza klinických a biologických datBiostatistika pro matematickou biologii Analýza rozptylu (ANOVA) Variabilita výběrových souborů a princip výpočtu

Logo Matematická biologie

Variabilita výběrových souborů a princip výpočtu

Abychom mohli adekvátně vysvětlit princip výpočtu analýzy rozptylu, je třeba nejprve zavést značení a předpoklady, na nichž je analýza rozptylu postavena. Obecně uvažujeme k nezávislých náhodných výběrů Y1j, Y2j, …, Ykj s rozsahy n1, n2, …, nk, o nichž předpokládáme, že pochází z normálního rozdělení, tedy že pro j-té pozorování z i-tého výběru platí Yij ~ N(μi,σ2). Jinými slovy předpokládáme normalitu hodnot a homogenitu rozptylů u všech k náhodných výběrů (parametr odpovídající rozptylu není závislý na konkrétním výběru a je tedy stejný pro všech k náhodných výběrů). Na základě výše uvedených předpokladů pak definujeme skupinové průměry pro jednotlivé výběry a celkový průměr pro všechny výběry dohromady, které uvádí tabulka 8.1.

Tab. 8.1: Zavedení značení k analýze rozptylu.

 

Rozsah výběru

Výběrový součet

Výběrový průměr

Výběr 1

n1

Výběr 2

n2

:

:

:

:

Výběr k

nk

Všechny výběry

n

 

Dále zavádíme tři odhady variability, které charakterizují pozorovaná data. První je tzv. celkový součet čtverců (total sum of squares), ST, který odráží celkovou variabilitu ve výběrovém souboru. Celkový součet čtverců je definován pomocí kvadrátů rozdílů pozorovaných hodnot od celkového průměru následovně:

(8.3)

Celkový součet čtverců je jakožto funkce pozorovaných hodnot statistikou, která má svoje rozdělení pravděpodobnosti. Lze ukázat, že za platnosti nulové hypotézy má statistika ST chí-kvadrát rozdělení s počtem stupňů volnosti, který se označuje jako dfT a je roven n – 1.

Další formou variability je tzv. skupinový součet čtverců (group sum of squares), SA, který odráží variabilitu mezi skupinami, respektive skupinovými průměry. Jinými slovy, skupinový součet čtverců popisuje variabilitu příslušnou vlivu sledované vysvětlující proměnné. Lze ho spočítat pomocí součtu kvadrátů rozdílů výběrových průměrů od celkového průměru. Statistiku SA definujeme takto:

(8.4)

Stejně jako v případě ST, má i statistika SA chí-kvadrát rozdělení pravděpodobnosti, tentokrát ale se stupni volnosti dfA = k – 1.

Třetí statistikou odrážející variabilitu pozorovaných dat je tzv. reziduální součet čtverců (residual sum of squares), Se, odpovídající variabilitě v rámci skupin. Spočítáme ho tak, že přes všechny výběry a pozorování sečteme kvadráty rozdílů pozorovaných hodnot od příslušných skupinových průměrů, což lze zapsat takto:

(8.5)

Pro statistiku Se lze ukázat, že platí Se ~ χ2(nk).

 

Příklad 8.1. Tabulka 8.2 obsahuje na fiktivních datech příklad výpočtu jednotlivých součtů čtverců. V příkladu předpokládáme tři výběrové soubory, přičemž každý z nich obsahuje tři pozorované hodnoty.

Tab. 8.2: Fiktivní datový soubor se třemi srovnávanými skupinami.

Léčba

Pozorovaná hodnota

Skupinový průměr

Skupinový průměr

mínus

celkový průměr

Pozorovaná hodnota

mínus

skupinový průměr

Pozorovaná hodnota mínus

celkový průměr

A

10

12

-4

-2

-6

A

12

12

-4

0

-4

A

14

12

-4

2

-2

B

19

20

4

-1

3

B

20

20

4

0

4

B

21

20

4

1

5

C

14

16

0

-2

-2

C

16

16

0

0

0

C

18

16

0

2

2

 

Celkový průměr = 16

Součet čtverců = 96

Součet čtverců = 18

Součet čtverců = 114

V tabulce 8.2 si lze všimnout, že reziduální součet čtverců a skupinový součet čtverců dávají po sečtení dohromady celkový součet čtverců. Toto není náhoda, skutečně lze ukázat, že platí

(8.6)

což znamená, že celková variabilita pozorovaných hodnot se dá rozložit na variabilitu v rámci skupin a variabilitu mezi skupinami:

(8.7)

Stejný vztah jako (8.6) platí i pro stupně volnosti příslušné statistikám ST, SA a Se.

Výpočet analýzy rozptylu je založen na srovnání skupinového a reziduálního součtu čtverců, jinak řečeno ANOVA srovnává pozorovanou variabilitu (rozptyl hodnot) mezi výběry s pozorovanou variabilitou (rozptylem hodnot) uvnitř výběrových souborů. Za předpokladu, že hodnoty všech k srovnávaných výběrů pocházejí z normálního rozdělení se stejným rozptylem, σ2, představuje výraz

(8.8)

výběrový odhad tohoto neznámého parametru. Tento podíl odpovídá průměrnému kvadrátu rozdílů pozorovaných hodnot od příslušných skupinových průměrů. Navíc, za platnosti nulové hypotézy představuje i výraz

(8.9)

výběrový odhad σ2. Tento podíl odpovídá průměrnému kvadrátu rozdílů výběrových průměrů od celkového průměru. Platí-li tedy nulová hypotéza, výraz (8.9), vycházející z výběrových průměrů, bude zhruba stejný jako výraz (8.8), vycházející z pozorovaných hodnot. Naopak, neplatí-li nulová hypotéza, lze očekávat, že výraz (8.9) bude větší než výraz (8.8), neboť lze očekávat velkou variabilitu mezi výběrovými průměry (homogenita rozptylů uvnitř výběrů je základním předpokladem analýzy rozptylu). Testovou statistikou v analýze rozptylu je statistika F, která je podílem výrazů (8.9) a (8.8) a která má za platnosti H0 Fisherovo F rozdělení s parametry k – 1 a nk. Tedy

(8.10)

V případě, že neplatí nulová hypotéza, bude čitatel statistiky F větší než její jmenovatel a výsledná hodnota statistiky F tak bude větší než 1. Hranici pro zamítnutí nulové hypotézy ale opět představuje kvantil (kritická hodnota) rozdělení F(k – 1, nk) příslušný zvolené hladině významnosti testu α. Případně nulovou hypotézu zamítneme/nezamítneme na základě srovnání výsledné p-hodnoty testu se zvolenou hladinou významnosti testu α. Výsledné výpočty jsou standardně zaznamenávány do tzv. tabulky analýzy rozptylu, kterou pro data z příkladu 8.1 představuje tabulka 8.3 (předpokládejme test na hladině významnosti α = 0,05). Z této tabulky je vidět, že zamítáme nulovou hypotézu o tom, že pozorované hodnoty pocházejí z normálního rozdělení se stejnou střední hodnotou, neboť při srovnání výsledné p-hodnoty testu se zvolenou hladinou významnosti platí, že 0,004 < 0,05. Pokud bychom chtěli rozhodnout o platnosti H0 pomocí srovnání výsledné hodnoty statistiky F (F = 16) s kritickou hodnotou, pak příslušný kvantil F rozdělení je . Přitom platí 16 > 5,14, což je v souladu se závěrem pomocí výsledné p-hodnoty.

Tab. 8.3: Sumarizace výsledků analýzy rozptylu pro fiktivní data z příkladu 8.1.

Zdroj variability

Součet čtverců

Počet stupňů volnosti

Průměrný čtverec

Statistika F

p-hodnota

Mezi skupinami

SA = 96

dfA = k – 1 = 2

MSA = 48

F = 16

0,004

Uvnitř skupin

Se = 18

dfe = nk = 6

MSe = 3

 

 

Celkem

ST = 114

dfT = n – 1 = 8

 

 

 

 

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity