Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Úvod do vícerozměrné analýzy dat Možné problémy vícerozměrných dat a jejich řešení Chybějící hodnoty

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Chybějící hodnoty

Chybějící hodnoty mohou v datech vzniknout z různých důvodů, například výpadkem měřicího přístroje, nebo protože se osoba rozhodne neodpovědět či zapomene odpovědět na danou otázku v dotazníku nebo protože osoba není z nejrůznějších důvodů schopna vykonat příslušný úkon (např. pacient, který si doma zapomněl brýle, není schopen provést kognitivní test, během něhož má číst slova) apod. Nejdůležitějším postupem při vypořádávání se s chybějícími hodnotami je zajistit, aby vůbec nevznikly. Přes veškerou snahu však někdy není možné jejich vzniku zabránit. Pokud taková situace nastane, máme tři možnosti, jak se s ní vypořádat.

První možností je vyloučit ze souboru všechny objekty, u nichž se vyskytla nějaká chybějící hodnota v jakékoliv proměnné a všechny analýzy poté provádět na tomto podsouboru (tzv. „listwise“ odstranění objektů). Pokud je chybějících hodnot málo a datový soubor je velký, můžeme si to dovolit. Pokud je však chybějících hodnot mnoho, mohli bychom tímto způsobem ztratit velkou část (často pracně) nasbíraného souboru. Soubor by mohl poté být natolik malý, že by nebylo možné prokázat v datech žádnou z hypotéz. Ještě větším problémem by však mohlo být, pokud by chybějící hodnoty nebyly náhodné, ale systematické. Například pokud by chybějící hodnoty u kognitivních testů byly způsobeny tím, že pacienti trpí natolik pokročilou formou demence, že daný test nejsou schopni provést. V takovém případě by odstranění pacientů kvůli chybějícím hodnotám mohlo vést ke zkresleným, v tomto případě nadhodnoceným, výsledkům. Jiným přístupem je namísto odstraňování objektů odstranění proměnných s chybějícími hodnotami. To je vhodné v případě, když daná proměnná není důležitá pro žádnou z plánovaných analýz, nebo je redundantní s jinou proměnnou či má tolik chybějících hodnot, že analýza této proměnné by stejně neměla žádnou vypovídající hodnotu. Ve většině případů však odstraňování proměnných není možné.

Druhou možností je použít pro dílčí analýzy pouze objekty, u nichž jsou vyplněné všechny hodnoty u parametrů potřebných pro danou analýzu (tzv. „pairwise“ odstranění proměnných). Například při výpočtu korelace dvou proměnných vybereme objekty, u nichž jsou hodnoty obou proměnných známy, nevyloučíme však z analýzy objekt, který by měl chybějící hodnotu u některé z dalších proměnných. Problémem u tohoto přístupu je, že jsou dílčí analýzy provedeny na různých podsouborech a je tedy obtížné srovnat jejich výsledky (například je obtížné určit, zda s první proměnnou (např. věk) více koreluje druhá proměnná (např. systolický tlak) či třetí proměnná (např. hladina cholesterolu), když korelace první a druhé proměnné (věku a systolického tlaku) byla kvůli chybějícím hodnotám počítána na částečně jiných subjektech než korelace první a třetí proměnné (věku a cholesterolu)).

V praxi se proto často používá kompromis mezi první a druhou možností práce s chybějícími hodnotami. Ten spočívá v definování souboru s vyplněnými tzv. „klíčovými“ proměnnými (důležité proměnné pro daný soubor – např. pokud byl soubor sbírán za účelem ověření vlivu pohlaví, věku a vzdělání na hodnoty třech kognitivních skóre, vytvoříme finální soubor subjektů, u nichž budou známy hodnoty u všech těchto šesti proměnných, nebude nám však vadit, když u některých subjektů nebudeme mít vyplněno, zda jsou praváci či leváci apod.). Na tomto souboru pak budou prováděny všechny analýzy spojené s hlavními hypotézami. Pokud do analýzy potřebujeme zahrnout i další, méně podstatné proměnné nebo proměnné s velkým množstvím chybějících hodnot, vytvoříme podsoubor, na němž budeme moci provést tyto další analýzy (např. kdyby se jedna z vedlejších hypotéz týkala hodnocení změny v těchto třech kognitivních skóre po dvou letech a kognitivní skóre po dvou letech by bylo známo pouze u poloviny subjektů, analýzy spojené s vedlejšími hypotézami by se prováděly na tomto podsouboru, analýzy spojené s hlavními hypotézami by však byly provedeny na celém souboru, aby nedošlo ke zbytečnému odstranění poloviny subjektů).

Třetí možností, jak se vypořádat s chybějícími hodnotami, je použití imputace, tzn. doplnění chybějících hodnot. Metod umožňujících imputaci chybějících hodnot je celá řada, je však nutno velmi pečlivě vybrat vhodnou metodu, jinak doplnění hodnot může způsobit více škody než užitku. Dvě nejpoužívanější metody jsou následující:

doplnění chybějících hodnot v daném parametru průměrem z hodnot, které jsou k dispozici – tato metoda nezmění vektor výběrových průměrů, zkreslí však kovarianční matici tím, že se snižují hodnoty variancí a kovariancí (vektor výběrových průměrů a kovarianční matice je podrobněji popsána v následující kapitole Vícerozměrná rozdělení pravděpodobnosti ) a může změnit vztahy mezi proměnnými;
doplnění chybějících hodnot na základě regresních modelů – vztahy mezi proměnnými jsou v tomto případě většinou lépe zachovány než v předešlém případě, může však docházet k nadhodnocování korelací (tzn., hodnoty korelačních koeficientů jsou vyšší, než by ve skutečnosti měly být).

Při imputaci chybějících hodnot však musíme mít na paměti, že doplnění hodnot může zkreslit výsledky (např. imputace může mít vliv na výsledné p-hodnoty apod.). Pokud by navíc chybějící hodnoty nebyly náhodné (viz příklad pacientů s pokročilou demencí zmíněný výše), mohlo by například doplnění průměrnými hodnotami vést k naprosto zkresleným výsledků celé analýzy.

Existují však oblasti, kde se imputace používá velmi často a se značným úspěchem. Například v genetických datech bývají chybějící hodnoty velmi časté. Při imputaci však lze využít mimo jiné informaci z haplotypů, proto téměř nedochází ke zkreslování výsledků.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity