Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datRegresní modelování Modelovací strategie a ověření předpokladů modelu Ověření předpokladů modelu Hledání zvláštních pozorování: odlehlá nebo vlivná

Logo Matematická biologie

Hledání zvláštních pozorování: odlehlá nebo vlivná

Pokud má příslušné pozorování atypickou hodnotu závisle proměnné (s ohledem na hodnotu očekávanou dle prediktorů), znamená to, že bude mít velkou hodnotu rezidua. Takové pozorování obvykle snadno nalezneme z výše zmíněných grafů a budeme jej nazývat odlehlé pozorování (angl. outlier). Pro pozorování s atypickou hodnotou závisle proměnné zřejmě neplatí mechanismus, který předpokládáme pro vztah mezi prediktory a výsledkem při konstrukci našeho regresního modelu. Jednotlivá pozorování, která výrazně změní hodnoty odhadnutých parametrů a tak nás odvádějí od hodnot parametrů, které nás vlastně zajímají, se nazývají vlivná pozorování. Umíme je identifikovat prostřednictvím tzv. delečních diagnostik, statistik, které lze spočítat pro každé pozorování:

  • DFFITS – jak se změní predikovaná hodnota, když dané pozorování vynecháme?
  • DFBETAS – jak se změní odhady regresních koeficientů (správně, pro každé pozorování dostáváme celý vektor), když dané pozorování vynecháme?
  • Cookova vzdálenost – podobná informace jako z DFBETAS, ale sumarizovaná do jediného čísla pro každé pozorování

Prostřednictvím zmíněných delečních diagnostik umíme najít vlivná pozorování – to jsou ta, u kterých jsou hodnoty těchto diagnostik zřetelně větší než u ostatních pozorování. Nabízí se otázka, co s takovými pozorováními udělat:

  • hodnoty prediktorů a výsledku podrobněji prozkoumat, třeba rovnou přijdeme na nějaký důvod
  • tím důvodem může být, že záznam je chybný – pak postupujeme podle pravidel pro chybějící data (Praktické otázky vícenásobné lineární regrese)
  • pokud je důvodem vlivnosti daného pozorování extrémní hodnota prediktoru nebo výsledku, může být řešením zformulovat vylučovací kritérium a odstranit rovněž další vyhovující pozorování (pokud máme v souboru vesměs třicátníky, jeden stoletý nám může s vlivem věku výrazně pohnout, a proto je dobré stanovit, že studie je určena pro osoby do 40 let), obdobně je ale třeba upravit interpretaci výsledného modelu (zjistili jsme vliv věku pouze u osob do 40 let)
  • řešením může být přidání další vysvětlující proměnné do modelu (předpokladem ovšem je, že takovou „zapomenutou“ vysvětlující proměnnou v našem datovém souboru máme)

Nyní si teoreticky probrané principy ukážeme na praktickém příkladu.

 
vytvořil Institut biostatistiky a analýz Masarykovy univerzity | | zpětné odkazy | validní XHTML 1.0 Strict