Aplikovaná analýza klinických a biologických datBiostatistika pro matematickou biologii Data, jejich popis a vizualizace Identifikace odlehlých hodnot

Analýza a management dat pro zdravotnické obory, Analýza klinických dat | Aplikovaná analýza přežití | Biostatistika pro matematickou biologii |

Úvod do biostatistiky |

Literatura |

Vztah pravděpodobnosti, statistiky a biostatistiky |

Data, jejich popis a vizualizace |

Výstupy z výukové jednotky | Typy dat | Význam popisu a vizualizace dat |

Popis a vizualizace kvalitativních dat | Popis a vizualizace kvantitativních dat |

Identifikace odlehlých hodnot | Literatura |

Náhodná veličina, rozdělení pravděpodobnosti a reálná data |

Literatura |

Bodové a intervalové odhady |

Vlastnosti výběrového průměru | Centrální limitní věta |

Intervalové odhady |

Konstrukce intervalů spolehlivosti pro parametry normálního rozdělení | Interpretace intervalu spolehlivosti | Šířka intervalu spolehlivosti |

Úlohy k procvičení | Literatura |

Úvod do testování hypotéz |

Spojitost testování hypotéz s intervaly spolehlivosti | Statistická a praktická významnost | Faktory ovlivňující sílu testu | Problém násobného testování hypotéz |

Literatura |

Testování hypotéz o kvantitativních proměnných |

Výstupy z výukové jednotky | Postup statistického testování | Testy o parametrech jednoho rozdělení |

Testy o střední hodnotě při známém rozptylu (z-test pro jeden výběr) | Testy o střední hodnotě při neznámém rozptylu (t-test pro jeden výběr) | Neparametrický test pro jeden výběr (Wilcoxonův test) | Test o rozdílu párových (závislých) pozorování (párová t-test) |

Testy o parametrech dvou rozdělení |

Test o rozdílu středních hodnot dvou nezávislých výběrů při stejných rozptylech | Test o shodnosti (homogenitě) rozptylů dvou nezávislých výběrů (F-test) | Welchova korekce pro t-test při nestejných rozptylech | Neparametrický test pro dva výběry (Mannův-Whitneyho test) |

Úlohy k procvičení | Literatura |

Analýza rozptylu (ANOVA) |

Výstupy z výukové jednotky | Přínos analýzy rozptylu | Variabilita výběrových souborů a princip výpočtu | Předpoklady analýzy rozptylu a jejich ověření |

Hodnocení normality pozorovaných hodnot |

Neparametrická alternativa analýzy rozptylu-Kruskallův -Wallisův test | Úlohy k procvičení | Literatura |

Testování hypotéz o kvalitativních proměnných |

Výstupy z výukové jednotky | Úvod | Testování hypotéz o podílech |

Interval spolehlivosti pro parametr π binomického rozdělení | Test pro podíl u jednoho výběru |

Analýza kontingenčních tabulek |

Testování nezávislosti (Pearsonův chí-kvadrát test) | Test hypotézy o symetrii – McNemarův test |

Fisherův exaktní test | Testy o rozdělení náhodné veličiny |

Chí-kvadrát test dobré shody |

Úlohy k procvičení | Literatura |

Asociace ve čtyřpolní tabulce |

Základy korelační analýzy |

Výstupy z výukové jednotky | Úvod | Pearsonův korelační koeficient |

Výpočet Pearsonova korelačního koeficientu | Interval spolehlivosti pro Pearsonův korelační koeficient | Test hypotézy o nulové korelaci dvou náhodných veličin |

Spearmanův korelační koeficient | Úlohy k procvičení | Literatura |

Identifikace odlehlých hodnot

Zásadní vliv odlehlých hodnot na popisné statistiky a tedy i nezbytnost jejich identifikace lze nejlépe ilustrovat příkladem.

Příklad 3.5. Uvažujme data z příkladu 3.3, v nichž zaměníme jednu hodnotu za hodnotu odlehlou (a to tak, že pouze vynecháme desetinnou čárku). Data s odlehlou hodnotou jsou dána v tabulce 3.5, odlehlá hodnota je zobrazena tučně.

Tab. 3.5: Hodnoty cholesterolu vybrané populace mužů s odlehlou hodnotou.

6.2	7.6	6.3	9.1	4.2	5.8	5.65	6.3	8.6	6.0	6.2
6.7	4.6	6.25	6.4	4.04	6.3	9.1	6.3	5.2	64	5.75

Výpočet popisných statistik je uveden v tabulce 3.6. Srovnáme-li výsledky výpočtů na datech s a bez odlehlé hodnoty, je vidět, že odlehlá hodnota velmi výrazně ovlivňuje jak hodnotu průměru, tak výběrové směrodatné odchylky, které již vůbec neodrážejí původně naměřené hodnoty hladiny cholesterolu. Jinými slovy, průměr ovlivněný odlehlou hodnotou nelze považovat za adekvátní míru střední tendence těchto dat a výběrovou směrodatnou odchylku ovlivněnou odlehlou hodnotou nelze považovat za adekvátní míru jejich variability. Na druhou stranu, hodnota mediánu se vlivem odlehlé hodnoty nemění, neboť odlehlá hodnota nemění frekvenční střed dat.

Tab. 3.6: Popisné statistiky vypočtené na datech s a bez odlehlé hodnoty (v mmol/l).

Statistika	Výpočet na datech bez odlehlé hodnoty	Výpočet na datech s odlehlou hodnotou
Průměr:
Medián:
Směrodatná odchylka:

Jak je vidět z příkladu 3.5, chybné hodnoty nebo také odlehlá pozorování mohou zásadním způsobem ovlivnit výsledky sumarizace dat, což může vést k mylné interpretaci a závěrům. Stejně tomu je i v případě pokročilejších statistických metod a modelů, kde je však naše schopnost odhalení odlehlé hodnoty na základě výsledků řádově horší než u jednoduché sumarizace. Je tak zřejmé, že problému odlehlých pozorování je nutné se věnovat ještě před zahájením jakýchkoliv výpočtů. Definice extrémních (odlehlých) hodnot není jednoduchá, neboť obor možných hodnot náhodné veličiny vždy závisí na konkrétním problému, který řešíme (v případě klinických dat je většinou dán rozmezím fyziologických hodnot). Někteří autoři definují odlehlou hodnotu jako hodnotu, která leží několikanásobek (tří, pěti, sedminásobek) výběrové směrodatné odchylky, respektive kvartilového rozpětí (často jedna a půl nebo třínásobek IQR), od průměru, respektive mediánu. Toto pravidlo však nelze brát striktně, neboť skutečnost, které hodnoty jsou či nejsou možné, by měl definovat hlavně zadavatel analýzy (expert na danou problematiku). Mnohem lepší je volná definice odlehlé hodnoty, která ji definuje jako netypické pozorování, které nezapadá do pravděpodobnostního chování souboru dat.

Ideálními nástroji pro identifikaci odlehlých hodnot jsou zejména výše uvedené grafy, které většinou jednoznačně odhalí problematickou hodnotu jako nezvykle vzdálenou od ostatních pozorovaných hodnot. Zajímá-li nás jedna náhodná veličina, je na místě použít histogram a krabicový graf, v případě hodnocení vztahu dvou náhodných veličin je vhodný pro identifikaci odlehlé hodnoty bodový graf. Identifikaci odlehlé hodnoty z příkladu 3.5 pomocí histogramu a krabicového grafu ukazuje obrázek 3.5.

Popisné statistiky jsou další pomůckou pro odhalování problematických hodnot, sumarizace minimálních a maximálních pozorovaných hodnot, případně 5% a 95% kvantilů, nám vždy jasně ukáže, v jakém rozsahu hodnot se náš soubor pohybuje. Na přítomnost či nepřítomnost odlehlých hodnot ukazuje i srovnání průměru a mediánu. Ve chvíli, kdy nám obě hodnoty vycházejí číselně podobně, můžeme usuzovat na nepřítomnost odlehlých hodnot, zatímco ve chvíli, kdy se hodnota průměru liší od hodnoty mediánu, svědčí to o přítomnosti odlehlých hodnot.

Je zřejmé, že zejména na větších datových souborech se nelze v identifikaci odlehlých hodnot obejít bez vizualizace a popisných statistik. Stejně tak se ale nelze obejít bez znalosti daného problému, která nám pomáhá se orientovat v tom, jaký je vůbec obor možných hodnot sledované náhodné veličiny.

Obr. 3.5: Identifikace odlehlé hodnoty pomocí histogramu a krabicového grafu.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity