Analýza a hodnocení biologických datRegresní modelování Praktické otázky vícenásobné lineární regrese Chybějící data Možnosti zpracování souboru s chybějícími daty

Opakování základů biostatistiky |

Lineární regresní model |

Výstupy z výukové jednotky | Motivace | Jak definujeme lineární regresní model? |

Předpoklady regresních modelů | Prediktory různých datových typů |

Konstanta | Spojitý prediktor | Kategoriální prediktor |

Příklady základních biostatistických modelů |

T-test | Analýza rozptylu |

Řešený praktický příklad: závislost koncentrace vitamínu na BMI | Problémy k řešení | Literatura |

Praktické otázky vícenásobné lineární regrese |

Výstupy z výukové jednotky | Interakce proměnných |

Interakce kategoriální a spojité proměnné | Interakce dvou kategoriálních proměnných |

Multikolinearita | Chybějící data |

Možnosti zpracování souboru s chybějícími daty |

Problémy k řešení | Literatura |

Modelovací strategie a ověření předpokladů modelu |

Problémy k řešení | Výstupy z výukové jednotky | Kauzalita |

Zavádějící faktor | Modelové diagramy, znázornění mediátoru |

Modelovací strategie |

Obecně | Stavění lineárního prediktoru |

Ověření předpokladů modelu |

Hledání zvláštních pozorování: odlehlá nebo vlivná |

Řešený praktický příklad: Spotřeba automobilů | Literatura |

Logistický regresní model a jiné zobecněné lineární modely |

Definice logistického regresního modelu | Interpretace koeficientů logistického regresního modelu | Ověření správnosti logistického regresního modelu | Řešený praktický příklad: Rizikové faktory srdeční choroby |

Analýza deviance | Poissonův regresní model |

Definice Poissonova regresního modelu | Interpretace koeficientů Poissonova regresního modelu | Ověření správnosti Poissonova regresního modelu |

Nadměrný rozptyl – overdispersion | Problémy k řešení | Literatura |

Statistické hodnocení biodiverzity |

Možnosti zpracování souboru s chybějícími daty

Základní metody práce s chybějícími daty jsou následující [2]:

Smazat celá pozorování obsahující chybějící data

Tato možnost je samozřejmě nejjednodušší a často automaticky využívaná při provádění regresní analýzy v různých softwarových nástrojích. Jak však bylo uvedeno, při jejím použití nejen ztrácíme sílu statistických testů, ale můžeme do výsledků zanést zkreslení, pokud data nechybějí zcela náhodně. Je tedy vhodné zkusit porovnat (s ohledem na ostatní prediktory nebo výsledek) pozorování s chybějícími údaji s těmi ostatními, abychom zjistili, zda je možné předpokládat zcela náhodný výskyt chybějících dat.

Považovat chybějící údaj za zvláštní kategorii dané proměnné

Tato strategie umožňuje ponechat pozorování v analýze bez potřeby zavedení (zpravidla velmi silných) předpokladů o potenciální hodnotě chybějících proměnných.

Snažit se získat chybějící údaje

U klíčových proměnných se může vyplatit věnovat dodatečné úsilí doplnění těchto údajů. V mnoha situacích (např. když příslušné měření vůbec neproběhlo) to samozřejmě nemusí být možné.

Vypustit proměnnou s chybějícími daty

V některých situacích (zejména když máme v datovém souboru několik vysoce korelovaných proměnných, které tedy nesou podobnou informaci) může být výhodné vypustit z analýzy celou (vysvětlující) proměnnou. V případě, že tato proměnná nese klíčovou informaci k vysvětlení výsledkové proměnné (je např. součástí zavádějících efektů nebo interakcí), mohli bychom naopak jejím vypuštěním zavést do výsledků závažné zkreslení.

Odhadnout chybějící hodnoty

Nejjednodušší strategií tohoto typu je nahradit chybějící hodnoty průměrem nebo mediánem dostupných hodnot dané proměnné. Předpokladem tohoto postupu je samozřejmě mechanismus MCAR, tedy data chybějící zcela náhodně. Pokud data chybějí náhodně, lze dále použít dosazení průměru specifického pro jednotlivé podskupiny daného souboru (pro chybějící hodnoty měsíčního příjmu u vysokoškoláků dosadíme průměrný měsíční příjem u vysokoškoláků v našem souboru). Sofistikovanější přístup tohoto typu je pak vytvořit přímo regresní model, který odhadne hodnoty chybějící proměnné z ostatních nechybějících prediktorů. Společným negativem všech těchto metod je však zanedbání přirozené variability a tedy nevyhnutelné podhodnocení směrodatných chyb odhadnutých koeficientů. Řešením může být užití komplexnější techniky vícenásobné imputace (multiple imputation [3]), její popis však přesahuje rámec tohoto textu.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity