Nadměrný rozptyl – overdispersion
V této výukové jednotce jsme se věnovali Poissonově a logistické regresi. U obou těchto rozdělení platí, že střední hodnota a rozptyl spolu pevně souvisejí:
- v Poissonově rozdělení platí
je li střední hodnota 1,5, je rozptyl rovněž 1,5
(návštěv na urgentním příjmu, moučných červů v objemu mouky,...) - v Binomickém rozdělení platí
je li střední hodnota 1,5, je rozptyl 0,75
(za předpokladu, že pracujeme se třemi „experimenty“, tedy v situaci, kdy např. odhadujeme počet chlapců mezi třemi potomky)
Problém je, že se v praxi dostáváme často do situace, kdy rozdělení výsledku zcela neodpovídá těm modelovým. Důvodem je jistá korelace mezi výsledky, která je v rozporu s předpoklady obou zmíněných rozdělení. Může se to například stát v situaci, kdy jsou v datech nějaké zřejmé shluky (například různé nemocnice, lékaři, laboratoře, přístroje) v rámci kterých spolu výsledky korelují více než napříč shluky.
Na nadměrný rozptyl nás může upozornit vysoká reziduální deviance, a tedy značná významnost příslušného statistického testu. Řešením může být přidání dalšího prediktoru (pokud jej máme naměřen). V rámci definice modelu pro odhad parametrů je to možné řešit uvolněním předpokladů o vztahu mezi střední hodnotou a rozptylem. V tomto případě odhadujeme zvlášť tzv. disperzní parametr (je to vlastně analogie odhadu rozptylu z lineárního statistického modelu). Například v software R je možné uvolnit předpoklady prostřednictvím nastavení argumentu family=quasibinomial nebo family=quasipoisson.