Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Klasifikace Hodnocení úspěšnosti klasifikace Obecné poznámky k rozdělení souboru na trénovací a testovací data

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Obecné poznámky k rozdělení souboru na trénovací a testovací data

Obecným problémem klasifikace při dělení souboru na testovací a trénovací sadu pomocí všech zmíněných metod je získání špatných nebo zavádějících výsledků, pokud jsou skupiny subjektů velmi početně nevyrovnané. Nejmenší problémy nastávají při klasifikaci pomocí resubstituce (již ale víme, že resubstituce by se neměla používat, protože nadhodnocuje výsledky klasifikace) a „odlož-jeden-mimo“ křížové validace, kde nevyrovnanost skupin může způsobit „jen“ situaci, kdy klasifikátor bude všechny subjekty zařazovat pouze do početnější skupiny (celková správnost v tomto případě bude poměrně vysoká, senzitivita však bude 0% a specificita 100% nebo obráceně). V případě ostatních variant rozdělení souboru na trénovací a testovací sadu se může kromě již zmíněné situace rovněž stát, že při početně nevyrovnaných skupinách budou v trénovací sadě pouze subjekty z jedné skupiny, což zpravidla způsobí, že se klasifikace vůbec neprovede a statistický software skončí s chybou. Řešením v případě početně nevyrovnaných skupin je vytvoření podvýběru početnější skupiny tak, aby podvýběr obsahoval stejný počet subjektů jako méně početná skupina, a provést křížovou validaci (nebo i náhodný výběr s opakováním, případně predikční testování externí validací). Je dobré tento postup provést několikrát (např. desetkrát) pro různé náhodné podvýběry početnějšího souboru a výsledky zprůměrovat. Jinou možností zajištění, aby v testovacích sadách byl dostatek pacientů i kontrol, který se však zpravidla používá jen při křížové validaci, přestože by ho bylo možné použít i při predikční testování externí validací, je rozdělení subjektů do podskupin tak, aby byl zachován stejný podíl subjektů z jedné a druhé skupiny jako byl v původním souboru. Například když je v původním souboru celkem 100 lidí, z nichž je 70 kontrolních subjektů (70%) a 30 pacientů (30%), a při 10-násobné křížové validaci rozdělíme soubor do 10 skupin po 10 lidech, bude každá skupina obsahovat 7 kontrolních subjektů (7 z 10, tzn. 70%) a 3 pacienty (3 z 10, tzn. 30%).

Na závěr kapitolky o rozdělení datové sady na trénovací a testovací je nezbytné zmínit jedno upozornění. Pokud na našich datech provádíme redukci nebo i předzpracování, při němž se používá informace i z ostatních subjektů (nejen z daného subjektu či objektu, který se právě redukuje či předzpracovává), je nutno soubor rozdělit na trénovací a testovací data ještě před redukcí resp. předzpracováním dat, jinak dostaneme nadhodnocené výsledky klasifikace. Například pokud před klasifikací provádíme redukci dat pomocí analýzy hlavních komponent, je potřebné vypočítat vlastní vektory pouze na trénovací sadě, ne na celém datovém souboru.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity