Aplikovaná analýza klinických a biologických datBiostatistika pro matematickou biologii Náhodná veličina, rozdělení pravděpodobnosti a reálná data Náhodná veličina a distribuční funkce

Analýza a management dat pro zdravotnické obory, Analýza klinických dat | Aplikovaná analýza přežití | Biostatistika pro matematickou biologii |

Úvod do biostatistiky |

Literatura |

Vztah pravděpodobnosti, statistiky a biostatistiky |

Data, jejich popis a vizualizace |

Výstupy z výukové jednotky | Typy dat | Význam popisu a vizualizace dat |

Popis a vizualizace kvalitativních dat | Popis a vizualizace kvantitativních dat |

Identifikace odlehlých hodnot | Literatura |

Náhodná veličina, rozdělení pravděpodobnosti a reálná data |

Literatura |

Bodové a intervalové odhady |

Vlastnosti výběrového průměru | Centrální limitní věta |

Intervalové odhady |

Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení | Interpretace intervalu spolehlivosti | Šířka intervalu spolehlivosti |

Úlohy k procvičení | Literatura |

Úvod do testování hypotéz |

Spojitost testování hypotéz s intervaly spolehlivosti | Statistická a praktická významnost | Faktory ovlivňující sílu testu | Problém násobného testování hypotéz |

Literatura |

Testování hypotéz o kvantitativních proměnných |

Výstupy z výukové jednotky | Postup statistického testování | Testy o parametrech jednoho rozdělení |

Testy o střední hodnotě při známém rozptylu (z-test pro jeden výběr) | Testy o střední hodnotě při neznámém rozptylu (t-test pro jeden výběr) | Neparametrický test pro jeden výběr (Wilcoxonův test) | Test o rozdílu párových (závislých) pozorování (párová t-test) |

Testy o parametrech dvou rozdělení |

Test o rozdílu středních hodnot dvou nezávislých výběrů při stejných rozptylech | Test o shodnosti (homogenitě) rozptylů dvou nezávislých výběrů (F-test) | Welchova korekce pro t-test při nestejných rozptylech | Neparametrický test pro dva výběry (Mannův-Whitneyho test) |

Úlohy k procvičení | Literatura |

Analýza rozptylu (ANOVA) |

Výstupy z výukové jednotky | Přínos analýzy rozptylu | Variabilita výběrových souborů a princip výpočtu | Předpoklady analýzy rozptylu a jejich ověření |

Hodnocení normality pozorovaných hodnot |

Neparametrická alternativa analýzy rozptylu-Kruskallův -Wallisův test | Úlohy k procvičení | Literatura |

Testování hypotéz o kvalitativních proměnných |

Výstupy z výukové jednotky | Úvod | Testování hypotéz o podílech |

Interval spolehlivosti pro parametr π binomického rozdělení | Test pro podíl u jednoho výběru |

Analýza kontingenčních tabulek |

Testování nezávislosti (Pearsonův chí-kvadrát test) | Test hypotézy o symetrii – McNemarův test |

Fisherův exaktní test | Testy o rozdělení náhodné veličiny |

Chí-kvadrát test dobré shody |

Úlohy k procvičení | Literatura |

Asociace ve čtyřpolní tabulce |

Základy korelační analýzy |

Výstupy z výukové jednotky | Úvod | Pearsonův korelační koeficient |

Výpočet Pearsonova korelačního koeficientu | Interval spolehlivosti pro Pearsonův korelační koeficient | Test hypotézy o nulové korelaci dvou náhodných veličin |

Spearmanův korelační koeficient | Úlohy k procvičení | Literatura |

Náhodná veličina a distribuční funkce

Označme Ω množinu všech možných výsledků náhodného pokusu (Ω reprezentuje základní soubor), a ω jednotlivé elementární jevy (ω_i reprezentuje i-tý prvek základního souboru). Náhodná veličina představuje číselné vyjádření výsledku náhodného pokusu, matematicky řečeno je to funkce, která každému elementárnímu jevu ω_i z Ω přiřadí hodnotu X(ω_i) z množiny možných hodnot (ta je podmnožinou množiny reálných čísel, R). Matematicky zapsáno, je náhodná veličina definována jako následující funkce:

(4.1)

Celý základní soubor Ω často není znám (množina Ω může být i nekonečná) a nejsme tak schopni ho popsat. Výhodou náhodné veličiny X je, že převádí základní prostor na čísla a teprve na jejich základě usuzujeme na vlastnosti Ω. Náhodné veličiny je zvykem označovat velkými písmeny z konce abecedy, např. X, Y, Z, jejich číselné realizace pak odpovídajícími malými písmeny, např. x, y, z.

Pravděpodobnostní chování náhodné veličiny, tedy přiřazení pravděpodobnosti každému možnému výsledku náhodné veličiny, jednoznačně popisuje tzv. rozdělení pravděpodobnosti (probability distribution), což je předpis daný buď jako funkce zadaná analyticky, nebo jako výčet možností a jim příslušných pravděpodobností. Druhou možnost lze ilustrovat jednoduchým příkladem v podobě sledování skutečnosti, zda při hodu kostkou padne číslo 6. Náhodná veličina X pak nabývá hodnot 1 (číslo 6 padlo, pravděpodobnost je rovna 1/6) nebo 0 (číslo 6 nepadlo, pravděpodobnost je rovna 5/6). Je tedy zřejmé, že náhodná veličina se netýká pouze kvantitativních znaků, neboť číselné vyjádření výsledku náhodného pokusu může popisovat i pohlaví.

Rozdělení pravděpodobnosti představuje model chování náhodné veličiny v cílové populaci. Pomocí vzorku (naměřených pozorování) se ptáme, jestli je model správný a jaké jsou jeho charakteristiky. Rozdělení pravděpodobnosti náhodné veličiny lze jednoznačně popsat pomocí tzv. distribuční funkce (cumulative distribution function), kterou standardně značíme F(x). Distribuční funkce vyjadřuje pravděpodobnost, že číselná realizace náhodné veličiny X nepřekročí na reálné ose danou hodnotu x, což lze zapsat jako

(4.2)

Distribuční funkce má několik vlastností, které plynou z toho, že je definována jako pravděpodobnost:

F(x) je neklesající a zprava spojitá.
Platí, že 0 ≤ F(x) ≤ 1.
Platí, že F(x) → 0 pro x → –∞ a F(x) → 1 pro x → ∞.

Příklad 4.1. Uvažujme 5 hodů mincí. Náhodná veličina X představuje počet líců a může nabývat pouze hodnot z množiny {0, 1, 2, 3, 4, 5}. Pro úplnost dodejme, že množina Ω je v tomto případě množina všech uspořádaných pětic složených z nul a jedniček reprezentujících ruby, respektive líce. Pravděpodobnosti jednotlivých realizací náhodné veličiny X lze spočítat jednoduše pomocí kombinatoriky: P(X = 0) = 1/32, P(X = 1) = 5/32, P(X = 2) = 10/32, P(X = 3) = 10/32, P(X = 4) = 5/32, P(X = 5) = 1/32. Distribuční funkce náhodné veličiny X je pak schodovitá funkce daná tabulkou 4.1.

Tab. 4.1: Hodnoty distribuční funkce náhodné veličiny X udávají počet líců v pěti hodech mincí.


	0	1/32	6/32	16/32	26/32	31/32	1

Distribuční funkce je teoretický předpis, který sice definuje pravděpodobnostní model pro náhodnou veličinu X, ale v řadě případů neznáme jeho přesné vyjádření. Jejím výběrovým ekvivalentem, který kumulativním způsobem popisuje pravděpodobnostní chování pozorovaných hodnot je tzv. výběrová (empirická) distribuční funkce (empirical cumulative distribution function), F_n(x), která je definována následovně:

(4.3)

kde symbol # vyjadřuje počet a I je indikátorová funkce nabývající hodnoty 1, když je podmínka v argumentu funkce splněna, a hodnoty 0, pokud podmínka v závorce splněna není. Výběrová distribuční funkce je při splnění předpokladu reprezentativnosti experimentálního vzorku odhadem teoretické distribuční funkce, což znamená, že z jejích hodnot a grafického znázornění můžeme usuzovat na vlastnosti teoretické distribuční funkce. Distribuční funkce jednoznačně přiřazuje každému číslu x na reálné ose pravděpodobnost, když odpovídá na otázku, s jakou pravděpodobností náhodná veličina X právě toto x nepřekročí. Často nás zajímá ale i opačná úvaha, tedy odpověď na otázku, jaké číslo x na reálné ose nepřekročí náhodná veličina X s určitou pravděpodobností (označme ji p), což může být např. číslo p = 0,8, 0,9 nebo 0,95. Odpověď na tuto otázku dává tzv. kvantilová funkce, což je funkce inverzní k distribuční funkci, jejímž výsledkem není pravděpodobnost, ale právě číslo na reálné ose, které této pravděpodobnosti p odpovídá. Rozdíl mezi distribuční funkcí a kvantilovou funkcí ukazuje vztah (4.4):

Distribuční funkce:		(4.4)
Kvantilová funkce:		(4.4)

Kvantilová funkce úzce souvisí s pojmem kvantil, který byl vysvětlen v předchozí kapitole, ale zatímco tam byl kvantil zaveden jako jedna z pozorovaných hodnot s určitou vlastností (p-procentní kvantil rozděluje data na p procent hodnot a (100 – p) procent hodnot), zde se jedná o teoretickou funkci, která je charakteristikou rozdělení náhodné veličiny X.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity