Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Klasifikace Klasifikace pomocí diskriminačních funkcí Úvod do klasifikace dat pomocí diskriminačních funkcí

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Úvod do klasifikace dat pomocí diskriminačních funkcí

V předchozí kapitole jsme si uvedli, že diskriminační funkce jsou jednou z možností, jak vymezit klasifikační třídy v -rozměrném prostoru. Diskriminační funkce vyjadřují míru příslušnosti objektu do jednotlivých tříd . Objekt zařadíme do takové třídy , pro niž je maximální. Ukázkový příklad pro dichotomický klasifikátor (tzn. klasifikace do dvou tříd) je uveden na Obr. 1. Na základě diskriminačních funkcí zařadíme neznámý objekt do třídy , protože .

Obr. 1: Ilustrace klasifikace pomocí diskriminačních funkcí. Neznámý objekt (označený otazníkem) zatřídíme do , protože .

Dichotomický klasifikátor můžeme znázornit pomocí blokového schématu na Obr. 2. Pro daný objekt , který chceme klasifikovat, přivedeme současně všechny hodnoty jednotlivých proměnných (tzn. ) do K=2 bloků, ve kterých se vyčíslí hodnoty diskriminačních funkcí a . Na výstupu výběrového bloku se objeví identifikátor té klasifikační třídy , pro niž byla hodnota diskriminační funkce větší.

Obr. 2. Blokové schéma dichotomického klasifikátoru pomocí diskriminačních funkcí.

V případě dichotomického klasifikátoru lze rozhodovací pravidlo zapsat rovněž ve tvaru:

(1)

kdy zařadíme objekt do třídy , pokud . V případě, že , zařadíme objekt do třídy . Pokud je a nemůžeme tedy jednoznačně rozhodnout, kam máme objekt zařadit, přiřadíme ho náhodně do jedné ze skupin, případně ho zařadíme do rizikovější skupiny. Například subjekt s ne zcela průkazným podezřením na infarkt myokardu raději zařadíme do skupiny pacientů, abychom ho nechali na pozorování v nemocnici, než bychom ho označili za zdravého a poslali domů, kde by mohl zemřít.

V případě, že , pak i , což znamená, že se diskriminační funkce protínají. Průmět průsečíku diskriminačních funkcí nám určuje hranici mezi třídami. Existuje tu tedy souvislost klasifikace podle diskriminačních funkcí s klasifikací pomocí hranic. Ukázky pro klasifikaci pomocí jedné a dvou proměnných jsou uvedeny na Obr. 3. Pokud bude objekt či subjekt, kterého chceme klasifikovat, ležet vlevo od hraničního bodu (v případě A) nebo vlevo od hranice (v případě B), zařadíme ho do třídy , což je ekvivalentní tomu, že vlevo od hraničního bodu resp. hranice je .

Obr. 3. Ilustrace souvislosti klasifikace pomocí diskriminačních funkcí s klasifikací pomocí hranic podle jedné proměnné (A) a dvou proměnných (B).

Po vysvětlení principu klasifikace pomocí diskriminačních funkcí a její souvislosti s klasifikací pomocí hranic, si uvedeme příklady diskriminačních funkcí. Nejjednodušším tvarem diskriminační funkce je lineární diskriminační funkce:

(2)

kde je práh diskriminační funkce posouvající počátek souřadného systému a jsou váhové koeficienty i-té proměnné . Ukázka klasifikace pomocí lineárních diskriminačních funkcí je na Obr. 4.

Obr. 4. Ukázka klasifikace pomocí lineárních diskriminačních funkcí.

Dalším příkladem diskriminačních funkcí jsou funkce založené na statistických vlastnostech třídy objektů. Konkrétně se budeme věnovat Bayesovu klasifikátoru, který zařazuje objekty do tříd podle podmíněné pravděpodobnosti zatřídění objektu do daných tříd. Bayesův klasifikátor si detailněji popíšeme v následujících podkapitolách, které jsou rozděleny podle kritéria použitého při vytváření klasifikátoru:

kritérium maximální aposteriorní pravděpodobnosti,
kritérium minimální pravděpodobnosti chybného rozhodnutí,
kritérium minimální střední ztráty,
kritérium maximální pravděpodobnosti.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity