Chybějící data
Chybějící data představují problém v různých typech statistických analýz. U vícenásobných regresních modelů se však tento problém prohlubuje, protože pracujeme najednou s mnoha proměnnými a pokud u daného pozorování chybí kterýkoliv údaj, můžeme o celé pozorování pro analýzu přijít. Menší počet pozorování samozřejmě snižuje přesnost odhadů a sílu statistických testů (schopnost zamítnout nulovou hypotézu), ale vylučování pozorování z tohoto důvodu může vést i ke zkreslení výsledků. Riziko zkreslení souvisí s mechanismem, který způsobuje chybějící data [3]):
- Data chybějící zcela náhodně (Missing completely at random, MCAR)
Žádný systematický rozdíl mezi (námi nepozorovanými) chybějícími hodnotami a pozorovanými hodnotami. Například výpadek pozorování hodnot systolického krevního tlaku z důvodu poruchy tlakoměru.
- Data chybějící náhodně (Missing at random, MCAR)
Systematický rozdíl mezi chybějícími a pozorovanými hodnotami je vysvětlitelný pozorovanými hodnotami jiné proměnné. Například chybějící hodnoty krevního tlaku budou nižší než pozorované, pokud se mladí lidé nedostaví na návštěvu lékaře k provedení měření. Pokud naměříme věk pacientů, bude možné tuto chybu opravit.
- Data chybějící nenáhodně (Missing not at random, MNAR)
Systematický rozdíl mezi chybějícími a pozorovanými hodnotami není vysvětlitelný ani pozorovanými hodnotami jiné proměnné.