Slovník | Vyhledávání | Mapa webu
 
Aplikovaná analýza klinických a biologických datBiostatistika pro matematickou biologii Bodové a intervalové odhady Srovnání průměru a mediánu

Logo Matematická biologie

Srovnání průměru a mediánu

V kapitole věnované odhadům nesmí chybět rozvaha nad použitím průměru a mediánu jako bodových odhadů neznámých parametrů (oba tyto odhady byly definovány ve výukové jednotce Data, jejich popis a vizualizace). Vhodnost jejich použití totiž není dána pouze symetrií, respektive asymetrií pozorovaných hodnot, ale také účelem studie. Platí sice, že průměr je dobrou charakteristikou frekvenčního středu (dobrým odhadem střední hodnoty) tehdy, když jsou naše data symetrická a neobsahují odlehlé či nesprávné hodnoty, to však neznamená, že ho např. v případě asymetrických dat nelze nikdy použít.

Ideálním příkladem pro vysvětlení je právě veličina s asymetrickým logaritmicko-normálním rozdělením pravděpodobnosti. Chceme-li charakterizovat logaritmicko-normální rozdělení z hlediska střední hodnoty, je použití průměru opravdu nevhodné, neboť v případě těchto dat má průměr tendenci se přizpůsobovat vysokým hodnotám, které jsou pozorovány s malou četností. To ho jako odhad frekvenčního středu dat diskvalifikuje. Nejvhodnějším odhadem je tzv. geometrický průměr (geometric mean), což není nic jiného než průměr spočítaný na normalizovaných hodnotách, tedy na hodnotách po transformaci y = ln(x), případně medián.

Na druhou stranu, chceme-li charakterizovat logaritmicko-normální rozdělení z hlediska celkového součtu pozorovaných hodnot, může být použití průměru smysluplné. Pokud nám v dané studii jde o to charakterizovat např. spotřebu nějakého materiálu (papíru, dřeva, léků, alkoholu) nebo třeba peněz, pak aritmetický průměr popisuje z hlediska celkového součtu spotřebu lépe než výše uvedený geometrický průměr nebo medián. Motivací pro tento typ studie může být např. plánování finančních prostředků na léčbu nějakého onemocnění na další rok. Pokud bychom postupovali tak, že bychom předpokládaný počet pacientů vynásobili hodnotou geometrického průměru nákladů na léčbu (nebo mediánu), dostali bychom objem financí, které by spotřeboval předpokládaný počet „typických“ pacientů s daným onemocněním. Tento výpočet by však neodpovídal realitě, neboť v praxi se nevyskytují pouze „typičtí“ pacienti. Odhad, který bychom dostali vynásobením předpokládaného počtu pacientů klasickým průměrem nákladů na léčbu, by byl v tomto případě vhodnější, neboť počítá právě i s „netypickými“ pacienty (jinými slovy s pacienty, jejichž náklady na léčbu jsou z nějakého důvodu vyšší než u ostatních). Důvod pro to, že průměr dobře charakterizuje celkový součet pozorovaných hodnot je prostý a vychází z jeho definice

(5.11)

Naopak ze znalosti mediánu a počtu pozorování nejsme schopni celkový součet pozorovaných hodnot zrekonstruovat.

Závěrem tedy nelze říci, že by jedna ze sumárních statistik byla lepší než druhá, určitě je na místě používat při výpočtech jak průměr, tak medián (a samozřejmě i geometrický průměr), nicméně je vždy třeba se zamyslet nad účelem použití této sumární statistiky a nad charakterem dat, která chceme sumarizovat. Na prvním místě zpracování dat by vždy měla být identifikace chybných a jinak „nevěrohodných“ pozorování, hned v závěsu bychom se pak měli věnovat identifikaci rozdělení, z něhož data pochází (ověřit předpoklad normality hodnot, nebo alespoň jejich symetrie, případně ověření Poissonova rozdělení). Nakonec je však jistě nejlepší radou výpočet obou hodnot, tedy průměru i mediánu, které jsou spolu s různými mírami variability cenným zdrojem informací o vlastnostech sledované náhodné veličiny.

 

 
vytvořil Institut biostatistiky a analýz Masarykovy univerzity | | zpětné odkazy | validní XHTML 1.0 Strict