Náhodná veličina a distribuční funkce
Označme Ω množinu všech možných výsledků náhodného pokusu (Ω reprezentuje základní soubor), a ω jednotlivé elementární jevy (ωi reprezentuje i-tý prvek základního souboru). Náhodná veličina představuje číselné vyjádření výsledku náhodného pokusu, matematicky řečeno je to funkce, která každému elementárnímu jevu ωi z Ω přiřadí hodnotu X(ωi) z množiny možných hodnot (ta je podmnožinou množiny reálných čísel, R). Matematicky zapsáno, je náhodná veličina definována jako následující funkce:
(4.1) |
Celý základní soubor Ω často není znám (množina Ω může být i nekonečná) a nejsme tak schopni ho popsat. Výhodou náhodné veličiny X je, že převádí základní prostor na čísla a teprve na jejich základě usuzujeme na vlastnosti Ω. Náhodné veličiny je zvykem označovat velkými písmeny z konce abecedy, např. X, Y, Z, jejich číselné realizace pak odpovídajícími malými písmeny, např. x, y, z.
Pravděpodobnostní chování náhodné veličiny, tedy přiřazení pravděpodobnosti každému možnému výsledku náhodné veličiny, jednoznačně popisuje tzv. rozdělení pravděpodobnosti (probability distribution), což je předpis daný buď jako funkce zadaná analyticky, nebo jako výčet možností a jim příslušných pravděpodobností. Druhou možnost lze ilustrovat jednoduchým příkladem v podobě sledování skutečnosti, zda při hodu kostkou padne číslo 6. Náhodná veličina X pak nabývá hodnot 1 (číslo 6 padlo, pravděpodobnost je rovna 1/6) nebo 0 (číslo 6 nepadlo, pravděpodobnost je rovna 5/6). Je tedy zřejmé, že náhodná veličina se netýká pouze kvantitativních znaků, neboť číselné vyjádření výsledku náhodného pokusu může popisovat i pohlaví.
Rozdělení pravděpodobnosti představuje model chování náhodné veličiny v cílové populaci. Pomocí vzorku (naměřených pozorování) se ptáme, jestli je model správný a jaké jsou jeho charakteristiky. Rozdělení pravděpodobnosti náhodné veličiny lze jednoznačně popsat pomocí tzv. distribuční funkce (cumulative distribution function), kterou standardně značíme F(x). Distribuční funkce vyjadřuje pravděpodobnost, že číselná realizace náhodné veličiny X nepřekročí na reálné ose danou hodnotu x, což lze zapsat jako
(4.2) |
Distribuční funkce má několik vlastností, které plynou z toho, že je definována jako pravděpodobnost:
- F(x) je neklesající a zprava spojitá.
- Platí, že 0 ≤ F(x) ≤ 1.
- Platí, že F(x) → 0 pro x → –∞ a F(x) → 1 pro x → ∞.
Příklad 4.1. Uvažujme 5 hodů mincí. Náhodná veličina X představuje počet líců a může nabývat pouze hodnot z množiny {0, 1, 2, 3, 4, 5}. Pro úplnost dodejme, že množina Ω je v tomto případě množina všech uspořádaných pětic složených z nul a jedniček reprezentujících ruby, respektive líce. Pravděpodobnosti jednotlivých realizací náhodné veličiny X lze spočítat jednoduše pomocí kombinatoriky: P(X = 0) = 1/32, P(X = 1) = 5/32, P(X = 2) = 10/32, P(X = 3) = 10/32, P(X = 4) = 5/32, P(X = 5) = 1/32. Distribuční funkce náhodné veličiny X je pak schodovitá funkce daná tabulkou 4.1.
Tab. 4.1: Hodnoty distribuční funkce náhodné veličiny X udávají počet líců v pěti hodech mincí.
|
|||||||
0 | 1/32 | 6/32 | 16/32 | 26/32 | 31/32 | 1 |
Distribuční funkce je teoretický předpis, který sice definuje pravděpodobnostní model pro náhodnou veličinu X, ale v řadě případů neznáme jeho přesné vyjádření. Jejím výběrovým ekvivalentem, který kumulativním způsobem popisuje pravděpodobnostní chování pozorovaných hodnot je tzv. výběrová (empirická) distribuční funkce (empirical cumulative distribution function), Fn(x), která je definována následovně:
(4.3) |
kde symbol # vyjadřuje počet a I je indikátorová funkce nabývající hodnoty 1, když je podmínka v argumentu funkce splněna, a hodnoty 0, pokud podmínka v závorce splněna není. Výběrová distribuční funkce je při splnění předpokladu reprezentativnosti experimentálního vzorku odhadem teoretické distribuční funkce, což znamená, že z jejích hodnot a grafického znázornění můžeme usuzovat na vlastnosti teoretické distribuční funkce. Distribuční funkce jednoznačně přiřazuje každému číslu x na reálné ose pravděpodobnost, když odpovídá na otázku, s jakou pravděpodobností náhodná veličina X právě toto x nepřekročí. Často nás zajímá ale i opačná úvaha, tedy odpověď na otázku, jaké číslo x na reálné ose nepřekročí náhodná veličina X s určitou pravděpodobností (označme ji p), což může být např. číslo p = 0,8, 0,9 nebo 0,95. Odpověď na tuto otázku dává tzv. kvantilová funkce, což je funkce inverzní k distribuční funkci, jejímž výsledkem není pravděpodobnost, ale právě číslo na reálné ose, které této pravděpodobnosti p odpovídá. Rozdíl mezi distribuční funkcí a kvantilovou funkcí ukazuje vztah (4.4):
Distribuční funkce: |
|
(4.4) |
Kvantilová funkce: |
|
Kvantilová funkce úzce souvisí s pojmem kvantil, který byl vysvětlen v předchozí kapitole, ale zatímco tam byl kvantil zaveden jako jedna z pozorovaných hodnot s určitou vlastností (p-procentní kvantil rozděluje data na p procent hodnot a (100 – p) procent hodnot), zde se jedná o teoretickou funkci, která je charakteristikou rozdělení náhodné veličiny X.