Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Klasifikace Klasifikace podle minimální vzdálenosti Princip klasifikace podle minimální vzdálenosti

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Metoda nejbližšího souseda

Jak již víme z kapitoly o podobnostech a vzdálenostech ve vícerozměrném prostoru, metoda nejbližšího souseda definuje vzdálenost mezi skupinami a jako

(1)

Tento vztah přepíšeme pro účely klasifikace podle minimální vzdálenosti na

(2)

Cílem metody nejbližšího souseda je tedy nalezení subjektu (či objektu) z celé množiny všech subjektů , který má nejmenší vzdálenost od subjektu , jenž chceme klasifikovat. Subjekt poté přiřadíme do té třídy, ze které je nalezený nejbližší soused.

Metoda nejbližšího souseda je znázorněna na Obr. 1. Testovací subjekt bude zařazen do skupiny pacientů vzhledem k tomu, že jeho nejbližší soused je pacient.

Obr. 1. Ilustrace klasifikace pomocí metody nejbližšího souseda. Testovací subjekt zatřídíme do skupiny pacientů, protože nejbližší soused testovacího subjektu patří do skupiny pacientů.

Nevýhodou metody nejbližšího souseda je její značná citlivost na odlehlé hodnoty. Obzvlášť v situaci, kdy se třídy částečně překrývají, zpravidla nedává dobré výsledky. Proto se v praxi častěji používá její zobecnění, což je metoda k nejbližších sousedů, při níž zařadíme subjekt, který chceme klasifikovat, do té třídy, která převažuje mezi jeho nejbližšími sousedy. Ukázka pro k=3 je uvedena na Obr. 2, kdy testovací subjekt zařadíme do třídy kontrol, protože mezi jeho třemi nejbližšími sousedy jsou dva kontrolní subjekty a pouze jeden pacient. Ze srovnání s Obr. 1. vyplývá, že metoda nejbližšího souseda a metoda k nejbližších sousedů mohou pro stejná data dávat různé výsledky.

Obr. 2. Ilustrace klasifikace pomocí metody k nejbližších sousedů (zde konkrétně k=3). Testovací subjekt zatřídíme do skupiny kontrol, protože mezi jeho třemi nejbližšími sousedy převažují kontrolní subjekty.

U metody nejbližších sousedů zpravidla volíme za liché číslo, protože pokud by bylo sudé, mohlo by se stál, že by byl mezi sousedy stejný počet subjektů z jedné i druhé skupiny, a tudíž by nebylo možné rozhodnout, do jaké třídy se má subjekt zařadit. Pokud by taková situace shody nastala, většinou se subjekt náhodně zařadí do jedné z daných skupin nebo případně do té skupiny, která je rizikovější. Protože bohužel dopředu nevíme, jaké je nejvhodnější na naše konkrétní data, obvykle se klasifikace provádí za použití různých hodnot a poté se vybere takové , pro něž jsme dostali nejlepší výsledky. Abychom výběr (tedy trénování klasifikátoru) neprováděli na stejném datovém souboru, na kterém klasifikátor i testujeme, protože to by to mohlo vést k přetrénování klasifikátoru, zpravidla se provádí výběr k pomocí křížové validace, jež je podrobně popsána v kapitole věnované hodnocení úspěšnosti klasifikace.

Metoda nejbližšího souseda ani metoda nejbližších sousedů nemají žádné předpoklady o rozložení dat (např. na rozdíl od Fisherovy lineární diskriminace ), což je jejich výhoda. Použití obou těchto metod však často není vhodné v situaci, kdy jsou značně nevyvážené počty subjektů v daných klasifikačních třídách. Protože pokud navíc dané třídy nejsou velmi od sebe vzdálené, budou obě metody zařazovat subjekty častěji do té třídy, která má větší počet subjektů.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity