Analýza a hodnocení biologických datRegresní modelování Modelovací strategie a ověření předpokladů modelu Ověření předpokladů modelu Hledání zvláštních pozorování: odlehlá nebo vlivná

Opakování základů biostatistiky |

Lineární regresní model |

Výstupy z výukové jednotky | Motivace | Jak definujeme lineární regresní model? |

Předpoklady regresních modelů | Prediktory různých datových typů |

Konstanta | Spojitý prediktor | Kategoriální prediktor |

Příklady základních biostatistických modelů |

T-test | Analýza rozptylu |

Řešený praktický příklad: závislost koncentrace vitamínu na BMI | Problémy k řešení | Literatura |

Praktické otázky vícenásobné lineární regrese |

Výstupy z výukové jednotky | Interakce proměnných |

Interakce kategoriální a spojité proměnné | Interakce dvou kategoriálních proměnných |

Multikolinearita | Chybějící data |

Možnosti zpracování souboru s chybějícími daty |

Problémy k řešení | Literatura |

Modelovací strategie a ověření předpokladů modelu |

Problémy k řešení | Výstupy z výukové jednotky | Kauzalita |

Zavádějící faktor | Modelové diagramy, znázornění mediátoru |

Modelovací strategie |

Obecně | Stavění lineárního prediktoru |

Ověření předpokladů modelu |

Hledání zvláštních pozorování: odlehlá nebo vlivná |

Řešený praktický příklad: Spotřeba automobilů | Literatura |

Logistický regresní model a jiné zobecněné lineární modely |

Definice logistického regresního modelu | Interpretace koeficientů logistického regresního modelu | Ověření správnosti logistického regresního modelu | Řešený praktický příklad: Rizikové faktory srdeční choroby |

Analýza deviance | Poissonův regresní model |

Definice Poissonova regresního modelu | Interpretace koeficientů Poissonova regresního modelu | Ověření správnosti Poissonova regresního modelu |

Nadměrný rozptyl – overdispersion | Problémy k řešení | Literatura |

Statistické hodnocení biodiverzity |

Hledání zvláštních pozorování: odlehlá nebo vlivná

Pokud má příslušné pozorování atypickou hodnotu závisle proměnné (s ohledem na hodnotu očekávanou dle prediktorů), znamená to, že bude mít velkou hodnotu rezidua. Takové pozorování obvykle snadno nalezneme z výše zmíněných grafů a budeme jej nazývat odlehlé pozorování (angl. outlier). Pro pozorování s atypickou hodnotou závisle proměnné zřejmě neplatí mechanismus, který předpokládáme pro vztah mezi prediktory a výsledkem při konstrukci našeho regresního modelu. Jednotlivá pozorování, která výrazně změní hodnoty odhadnutých parametrů a tak nás odvádějí od hodnot parametrů, které nás vlastně zajímají, se nazývají vlivná pozorování. Umíme je identifikovat prostřednictvím tzv. delečních diagnostik, statistik, které lze spočítat pro každé pozorování:

DFFITS – jak se změní predikovaná hodnota, když dané pozorování vynecháme?
DFBETAS – jak se změní odhady regresních koeficientů (správně, pro každé pozorování dostáváme celý vektor), když dané pozorování vynecháme?
Cookova vzdálenost – podobná informace jako z DFBETAS, ale sumarizovaná do jediného čísla pro každé pozorování

Prostřednictvím zmíněných delečních diagnostik umíme najít vlivná pozorování – to jsou ta, u kterých jsou hodnoty těchto diagnostik zřetelně větší než u ostatních pozorování. Nabízí se otázka, co s takovými pozorováními udělat:

hodnoty prediktorů a výsledku podrobněji prozkoumat, třeba rovnou přijdeme na nějaký důvod
tím důvodem může být, že záznam je chybný – pak postupujeme podle pravidel pro chybějící data (Praktické otázky vícenásobné lineární regrese)
pokud je důvodem vlivnosti daného pozorování extrémní hodnota prediktoru nebo výsledku, může být řešením zformulovat vylučovací kritérium a odstranit rovněž další vyhovující pozorování (pokud máme v souboru vesměs třicátníky, jeden stoletý nám může s vlivem věku výrazně pohnout, a proto je dobré stanovit, že studie je určena pro osoby do 40 let), obdobně je ale třeba upravit interpretaci výsledného modelu (zjistili jsme vliv věku pouze u osob do 40 let)
řešením může být přidání další vysvětlující proměnné do modelu (předpokladem ovšem je, že takovou „zapomenutou“ vysvětlující proměnnou v našem datovém souboru máme)

Nyní si teoreticky probrané principy ukážeme na praktickém příkladu.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity