Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Klasifikace Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární Úvod do klasifikace pomocí hranic

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Úvod do klasifikace pomocí hranic

Vícerozměrná data můžeme znázornit v prostoru, v němž zobrazené body odpovídají jednotlivým objektům (či subjektům) a jehož dimenzionalita odpovídá počtu proměnných, kterými jsou objekty popsány. Pokud se v datech vyskytují skupiny objektů, které chceme od sebe oddělit, zřejmě nás intuitivně napadne nakreslit hranici, která bude prostor rozdělovat tak, aby byly na jedné straně od hranice objekty z jedné třídy a na druhé straně hranice objekty z druhé třídy (Obr. 1).

Obr. 1: Ilustrace klasifikace pomocí hranice.

Hranice jsou tvořeny obecně nadplochami o rozměru o jednotku menší než je rozměr prostoru – v dvourozměrném prostoru je to tedy křivka (ve speciálním lineárním případě přímka), v trojrozměrném prostoru plocha (v lineárním případě rovina), atd. Způsoby určení oddělujících hranic závisí jednak na vlastnostech klasifikačních tříd a jednak na kritériích, která použijeme pro optimalizaci polohy hranic. Co se týče vlastností klasifikačních tříd, zajímá nás zejména:

zda se jejich obrazy vyskytují v navzájem překrývajících se oblastech, či nikoliv – v tom případě hovoříme o separabilních či neseparabilních skupinách
zda je možné skupiny objektů oddělit lineární hraniční plochou, či zda je vhodnější použít plochu nelineární.

Na základě kombinací výše uvedených vlastností mohou nastat celkem tři situace, které jsou znázorněny na Obr. 2, tedy lineárně separabilní úloha, lineárně neseparabilní úloha s lineárně separovanými třídami a nelineárně separabilní úloha.

Obr. 2: Případy separability klasifikačních tříd - a) lineárně separabilní úloha; b) lineárně neseparabilní úloha, ovšem s lineárně separovanými třídami; c) nelineárně separabilní klasifikační úloha.

V dalším textu se budeme zabývat především metodami pro stanovení lineárních hranic mezi klasifikačními třídami, přičemž hranice je v tom případě dána jako

(1)

kde ) je tzv. váhový vektor, je vektor hodnot proměnných popisujících klasifikovaný objekt či subjekt a absolutní člen posouvá hranici od počátku. Váhový vektor můžeme stanovit různými způsoby, z nichž si představíme Fisherovu lineární diskriminaci a také lineární verzi metody podpůrných vektorů. Dalšími metodami, které umožňují stanovení lineárních hranic, jsou metoda nejmenších čtverců či jednovrstvý perceptron, tyto metody však v těchto učebních textech nebudou rozebírány, protože jsou v praxi používány mnohem méně často než Fisherova lineární diskriminace a metoda podpůrných vektorů.

V případě, že jsou klasifikační třídy lineárně neseparabilní, používají se dva principiálně odlišné přístupy (viz. Obr. 3):

zachováme původní p rozměrný prostor a zvolíme nelineární hraniční funkci:

definovanou obecně (např., nebo , nevýhodou je však obtížné rozhodování, jakou funkci máme použít (především ve vícerozměrném prostoru, který si nelze jednoduše vizualizovat), a nutnost stanovení parametrů takovýchto funkcí (v našem případě a, b a c); první problém se zpravidla řeší heuristicky pomocí apriorní informace o klasifikační úloze, druhý problém se stanovením parametrů hraniční funkce však vede na obtížně řešitelné nelineární optimalizační úlohy, proto se tomuto způsobu popisu klasifikačních tříd snažíme co nejvíce vyhýbat);
složenou po částech z lineárních úseků (tzn. zjednodušíme stanovení parametrů hraniční funkce tím, že optimalizační úlohu parciálně linearizujeme, i když za cenu násobné realizace).

zobrazíme původní rozměrný prostor nějakou nelineární transformací do nového m rozměrného prostoru (obecně je ) tak, aby v novém prostoru byly klasifikační třídy lineárně separabilní, a v novém prostoru použijeme lineární klasifikátor. Tento přístup si probereme detailněji na příkladu nelineární verze metody podpůrných vektorů.

Obr. 3: Přístupy klasifikace při lineárně neseparabilních třídách - a) vytvoření nelineární hranice definované obecně; b) vytvoření nelineární hranice složené po částech z lineárních úseků; c) zobrazení původního (dvourozměrného) prostoru nelineární transformací do nového (třírozměrného) prostoru tak, aby v novém prostoru byly třídy lineárně separabilní.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity