Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datRegresní modelování Praktické otázky vícenásobné lineární regrese Chybějící data

Logo Matematická biologie

Chybějící data

Chybějící data představují problém v různých typech statistických analýz. U vícenásobných regresních modelů se však tento problém prohlubuje, protože pracujeme najednou s mnoha proměnnými a pokud u daného pozorování chybí kterýkoliv údaj, můžeme o celé pozorování pro analýzu přijít. Menší počet pozorování samozřejmě snižuje přesnost odhadů a sílu statistických testů (schopnost zamítnout nulovou hypotézu), ale vylučování pozorování z tohoto důvodu může vést i ke zkreslení výsledků. Riziko zkreslení souvisí s mechanismem, který způsobuje chybějící data [3]):

  • Data chybějící zcela náhodně (Missing completely at random, MCAR)

Žádný systematický rozdíl mezi (námi nepozorovanými) chybějícími hodnotami a pozorovanými hodnotami. Například výpadek pozorování hodnot systolického krevního tlaku z důvodu poruchy tlakoměru.

  • Data chybějící náhodně (Missing at random, MCAR)

Systematický rozdíl mezi chybějícími a pozorovanými hodnotami je vysvětlitelný pozorovanými hodnotami jiné proměnné. Například chybějící hodnoty krevního tlaku budou nižší než pozorované, pokud se mladí lidé nedostaví na návštěvu lékaře k provedení měření. Pokud naměříme věk pacientů, bude možné tuto chybu opravit.

  • Data chybějící nenáhodně (Missing not at random, MNAR)

Systematický rozdíl mezi chybějícími a pozorovanými hodnotami není vysvětlitelný ani pozorovanými hodnotami jiné proměnné.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity