Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Vícerozměrná rozdělení pravděpodobnosti Transformace dat Nelineární transformace dat

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Nelineární transformace dat

Většina transformací, které se používají v medicíně a biologii, jsou nelineární transformace. Tyto transformace mění rozdělení dat, lze je tedy využít pro úpravu dat, abychom se přiblížili vícerozměrné normalitě. Z nelineárních transformací se využívá:

Logaritmická transformace

nebo ,

(18)

kde x_ij je hodnota j-té proměnné u i‑tého objektu a log_c je logaritmus o základu c, přičemž se zpravidla používá dekadický logaritmus (c=10) či přirozený logaritmus (c=e, kde e je Eulerovo číslo) a v analýze dat expresí genů se často používá dvojkový logaritmus (c=2). Druhý typ transformace, kdy k proměnné přičítáme jedničku, se používá v případě, když jsou v datech přítomny nuly.

Logaritmická transformace se často používá ze čtyř různých důvodů:

k normalizaci dat, tedy k převedení dat na normální rozdělení u proměnných s log-normálním rozdělením;
k dosažení homogenity rozptylu;
k linearizaci vztahu proměnných;
k přiřazení menší váhy dominantním proměnným a zvýraznění kvalitativní stránky dat.

Při používání logaritmické transformace bychom však měli mít na paměti, že je nevhodná u dat, která jsou již v logaritmickém tvaru (např. pH).

Odmocninová transformace

(19)

popřípadě ve tvaru:

(20)

Tuto transformaci lze využít:

před analýzou proměnných s Poissonovým rozdělením (např. počet jedinců určitého druhu získaných z jednoho místa za určitou časovou jednotku či počet buněk na určité ploše apod.);
k přiřazení nižší váhy dominantním proměnným.

Arkussinová transformace

(21)

Arkussinová transformace je použitelná především pro proměnné s binomickým rozdělením a používá se:

v kombinaci s odmocninovou transformací a předpokládá, že data jsou měřena v intervalu 0-1;
na úpravu relativních hodnot vyjádřených v intervalu 0-1 (např. vegetační pokryvnosti druhů).

Exponenciální transformace

(22)

Pokud a je reálné číslo větší než 1, jsou zvýrazněny dominantní proměnné. Pro hodnoty se běžně nepoužívá.

Transformace na ordinální škálu

Při transformaci na ordinální škálu jsou hodnoty proměnných převedeny do tříd. Čím vyšší je číslo třídy, tím vyšší byla původní hodnota. Ovšem stejné číslo třídy nemusí vždy znamenat stejnou hodnotu původní proměnné a intervaly tříd nemusí být stejné. Příkladem může být kategorizace věku na skupiny pod 20 let, 20-30 let, 30-40 let, 40-50 let, 50 a více let apod. V ekologii je typickou transformací na ordinální škálu použití Braunovy-Blanquetové stupnice při kvantifikaci pokryvnosti vegetace (Tabulka 2).

Tabulka 2. Braunova-Blanquetové stupnice pokryvnosti vegetačních druhů.

Extrémem je binarizace – transformace na prezenci a absenci.

, když ; , když

(23)

Transformací na ordinální škálu se vždy ztrácí část informace. V některých případech je ovšem tato transformace jediná možnost, jak dosáhnout srovnatelnosti dat (např. třídy ekologického stavu).

Při sběru dat je určitě vhodné získávat co nejdetailnější data (tzn. například zjišťovat věk subjektů v letech), protože transformovat data můžeme jednoduše. Zatímco kdybychom zjišťovali u subjektů pouze, zda mají věk pod 20 let, 20-30 let atd., už nikdy nebudeme schopni zpětně zjistit skutečný věk, přestože jsme si původně mysleli, že ho potřebovat nebudeme, ale nakonec v průběhu analýz by se ukázalo, že je potřebné ho znát.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity