Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datRegresní modelování Praktické otázky vícenásobné lineární regrese Chybějící data Možnosti zpracování souboru s chybějícími daty

Logo Matematická biologie

Možnosti zpracování souboru s chybějícími daty

Základní metody práce s chybějícími daty jsou následující [2]:

  1. Smazat celá pozorování obsahující chybějící data

Tato možnost je samozřejmě nejjednodušší a často automaticky využívaná při provádění regresní analýzy v různých softwarových nástrojích. Jak však bylo uvedeno, při jejím použití nejen ztrácíme sílu statistických testů, ale můžeme do výsledků zanést zkreslení, pokud data nechybějí zcela náhodně. Je tedy vhodné zkusit porovnat (s ohledem na ostatní prediktory nebo výsledek) pozorování s chybějícími údaji s těmi ostatními, abychom zjistili, zda je možné předpokládat zcela náhodný výskyt chybějících dat.

  1. Považovat chybějící údaj za zvláštní kategorii dané proměnné

Tato strategie umožňuje ponechat pozorování v analýze bez potřeby zavedení (zpravidla velmi silných) předpokladů o potenciální hodnotě chybějících proměnných.

  1. Snažit se získat chybějící údaje

U klíčových proměnných se může vyplatit věnovat dodatečné úsilí doplnění těchto údajů. V mnoha situacích (např. když příslušné měření vůbec neproběhlo) to samozřejmě nemusí být možné.

  1. Vypustit proměnnou s chybějícími daty

V některých situacích (zejména když máme v datovém souboru několik vysoce korelovaných proměnných, které tedy nesou podobnou informaci) může být výhodné vypustit z analýzy celou (vysvětlující) proměnnou. V případě, že tato proměnná nese klíčovou informaci k vysvětlení výsledkové proměnné (je např. součástí zavádějících efektů nebo interakcí), mohli bychom naopak jejím vypuštěním zavést do výsledků závažné zkreslení.

  1. Odhadnout chybějící hodnoty

Nejjednodušší strategií tohoto typu je nahradit chybějící hodnoty průměrem nebo mediánem dostupných hodnot dané proměnné. Předpokladem tohoto postupu je samozřejmě mechanismus MCAR, tedy data chybějící zcela náhodně. Pokud data chybějí náhodně, lze dále použít dosazení průměru specifického pro jednotlivé podskupiny daného souboru (pro chybějící hodnoty měsíčního příjmu u vysokoškoláků dosadíme průměrný měsíční příjem u vysokoškoláků v našem souboru). Sofistikovanější přístup tohoto typu je pak vytvořit přímo regresní model, který odhadne hodnoty chybějící proměnné z ostatních nechybějících prediktorů. Společným negativem všech těchto metod je však zanedbání přirozené variability a tedy nevyhnutelné podhodnocení směrodatných chyb odhadnutých koeficientů. Řešením může být užití komplexnější techniky vícenásobné imputace (multiple imputation [3]), její popis však přesahuje rámec tohoto textu.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity