Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Úvod do vícerozměrné analýzy dat Možné problémy vícerozměrných dat a jejich řešení Chybějící hodnoty

Logo Matematická biologie

Chybějící hodnoty

Chybějící hodnoty mohou v datech vzniknout z různých důvodů, například výpadkem měřicího přístroje, nebo protože se osoba rozhodne neodpovědět či zapomene odpovědět na danou otázku v dotazníku nebo protože osoba není z nejrůznějších důvodů schopna vykonat příslušný úkon (např. pacient, který si doma zapomněl brýle, není schopen provést kognitivní test, během něhož má číst slova) apod. Nejdůležitějším postupem při vypořádávání se s chybějícími hodnotami je zajistit, aby vůbec nevznikly. Přes veškerou snahu však někdy není možné jejich vzniku zabránit. Pokud taková situace nastane, máme tři možnosti, jak se s ní vypořádat.

První možností je vyloučit ze souboru všechny objekty, u nichž se vyskytla nějaká chybějící hodnota v jakékoliv proměnné a všechny analýzy poté provádět na tomto podsouboru (tzv. „listwise“ odstranění objektů). Pokud je chybějících hodnot málo a datový soubor je velký, můžeme si to dovolit. Pokud je však chybějících hodnot mnoho, mohli bychom tímto způsobem ztratit velkou část (často pracně) nasbíraného souboru. Soubor by mohl poté být natolik malý, že by nebylo možné prokázat v datech žádnou z hypotéz. Ještě větším problémem by však mohlo být, pokud by chybějící hodnoty nebyly náhodné, ale systematické. Například pokud by chybějící hodnoty u kognitivních testů byly způsobeny tím, že pacienti trpí natolik pokročilou formou demence, že daný test nejsou schopni provést. V takovém případě by odstranění pacientů kvůli chybějícím hodnotám mohlo vést ke zkresleným, v tomto případě nadhodnoceným, výsledkům. Jiným přístupem je namísto odstraňování objektů odstranění proměnných s chybějícími hodnotami. To je vhodné v případě, když daná proměnná není důležitá pro žádnou z plánovaných analýz, nebo je redundantní s jinou proměnnou či má tolik chybějících hodnot, že analýza této proměnné by stejně neměla žádnou vypovídající hodnotu. Ve většině případů však odstraňování proměnných není možné.

Druhou možností je použít pro dílčí analýzy pouze objekty, u nichž jsou vyplněné všechny hodnoty u parametrů potřebných pro danou analýzu (tzv. „pairwise“ odstranění proměnných). Například při výpočtu korelace dvou proměnných vybereme objekty, u nichž jsou hodnoty obou proměnných známy, nevyloučíme však z analýzy objekt, který by měl chybějící hodnotu u některé z dalších proměnných. Problémem u tohoto přístupu je, že jsou dílčí analýzy provedeny na různých podsouborech a je tedy obtížné srovnat jejich výsledky (například je obtížné určit, zda s první proměnnou (např. věk) více koreluje druhá proměnná (např. systolický tlak) či třetí proměnná (např. hladina cholesterolu), když korelace první a druhé proměnné (věku a systolického tlaku) byla kvůli chybějícím hodnotám počítána na částečně jiných subjektech než korelace první a třetí proměnné (věku a cholesterolu)).

V praxi se proto často používá kompromis mezi první a druhou možností práce s chybějícími hodnotami. Ten spočívá v definování souboru s vyplněnými tzv. „klíčovými“ proměnnými (důležité proměnné pro daný soubor – např. pokud byl soubor sbírán za účelem ověření vlivu pohlaví, věku a vzdělání na hodnoty třech kognitivních skóre, vytvoříme finální soubor subjektů, u nichž budou známy hodnoty u všech těchto šesti proměnných, nebude nám však vadit, když u některých subjektů nebudeme mít vyplněno, zda jsou praváci či leváci apod.). Na tomto souboru pak budou prováděny všechny analýzy spojené s hlavními hypotézami. Pokud do analýzy potřebujeme zahrnout i další, méně podstatné proměnné nebo proměnné s velkým množstvím chybějících hodnot, vytvoříme podsoubor, na němž budeme moci provést tyto další analýzy (např. kdyby se jedna z vedlejších hypotéz týkala hodnocení změny v těchto třech kognitivních skóre po dvou letech a kognitivní skóre po dvou letech by bylo známo pouze u poloviny subjektů, analýzy spojené s vedlejšími hypotézami by se prováděly na tomto podsouboru, analýzy spojené s hlavními hypotézami by však byly provedeny na celém souboru, aby nedošlo ke zbytečnému odstranění poloviny subjektů).

Třetí možností, jak se vypořádat s chybějícími hodnotami, je použití imputace, tzn. doplnění chybějících hodnot. Metod umožňujících imputaci chybějících hodnot je celá řada, je však nutno velmi pečlivě vybrat vhodnou metodu, jinak doplnění hodnot může způsobit více škody než užitku. Dvě nejpoužívanější metody jsou následující:

  • doplnění chybějících hodnot v daném parametru průměrem z hodnot, které jsou k dispozici – tato metoda nezmění vektor výběrových průměrů, zkreslí však kovarianční matici tím, že se snižují hodnoty variancí a kovariancí (vektor výběrových průměrů a kovarianční matice je podrobněji popsána v následující kapitole Vícerozměrná rozdělení pravděpodobnosti ) a může změnit vztahy mezi proměnnými;
  • doplnění chybějících hodnot na základě regresních modelů – vztahy mezi proměnnými jsou v tomto případě většinou lépe zachovány než v předešlém případě, může však docházet k nadhodnocování korelací (tzn., hodnoty korelačních koeficientů jsou vyšší, než by ve skutečnosti měly být).

Při imputaci chybějících hodnot však musíme mít na paměti, že doplnění hodnot může zkreslit výsledky (např. imputace může mít vliv na výsledné p-hodnoty apod.). Pokud by navíc chybějící hodnoty nebyly náhodné (viz příklad pacientů s pokročilou demencí zmíněný výše), mohlo by například doplnění průměrnými hodnotami vést k naprosto zkresleným výsledků celé analýzy.

Existují však oblasti, kde se imputace používá velmi často a se značným úspěchem. Například v genetických datech bývají chybějící hodnoty velmi časté. Při imputaci však lze využít mimo jiné informaci z haplotypů, proto téměř nedochází ke zkreslování výsledků.  

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity