Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Shluková analýza Shluková hierarchická analýza Hierarchické shlukování

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Polytetické metody

U polytetických metod probíhá dělení souboru na základě všech proměnných. Shluky vytvořené polytetickou metodou jsou homogennější než shluky vytvořené monotetickou metodou.

Mezi ekology je velice oblíbená metoda two way indicator species analysis (český název pro tuto metodu není zaužívaný) a program TWINSPAN. Jde o polytetickou metodu, která umožňuje zpracovat rozsáhlé soubory objektů. Dichotomická dělení jsou provázena stanovením indikátorových proměnných. V ekologických studiích jsou proměnnými obvykle početnosti druhů.

TWINSPAN pracuje pouze s kvalitativními daty. Aby mohla být zahrnuta informace o kvantitě druhů, byl vyvinut kvalitativní ekvivalent druhové abundance, tzv. pseudo-druh (pseudo-species). Každá abundance druhu je nahrazena přítomnosti jednoho nebo více pseudo-druhů. Čím víc je druh početnější, tím víc pseudo-druhů je definováno. Každý pseudo-druh je definován minimální abundancí korespondujícího druhu, tzv. hraniční hodnotou (cut level, cut-off level). Každý druh může být vyjádřen několika pseudo-druhy. Pseudo-druh je tedy přítomen, pokud zastoupení druhu přesáhne hraniční hodnotu (Tabulka 2).

Tabulka 2: Ukázka tvorby pseudo-druhů pro TWINSPAN při použití hraničních hodnot 0, 5, 10, 20 (podle [10]).

Výhoda nahrazení kvantitativní proměnné několika kvalitativními proměnnými spočívá v tom, že když abundance druhu vykazuje unimodální odezvu podél gradientu, každý pseudo-druh také vykazuje unimodální křivku odezvy, a když je křivka odezvy pro abundanci zešikmená, pak se křivky odezev pseudo-druhů liší ve svých optimech.

Proces dělení objektů do shluků probíhá v TWINSPANu pomocí korespondenční analýzy. Objekty jsou rozděleny na levou (negativní) stranu a pravou (pozitivní) stranu dichotomie podle jejich skóre na první ose korespondenční analýzy. Osa je rozdělena v centroidu (těžišti). V těžišti je ovšem zpravidla umístěno vícero objektů, a tím je jejich klasifikace závislá na mnohých náhodných faktorech. Proto se ordinace zopakuje s přiřazením větší váhy druhům, které upřednostňují jednu nebo druhou stranu dichotomie. Tyto druhy jsou tzv. diferenční, obvykle nejsou zaznamenány na stejných lokalitách. Algoritmus je komplikovaný, jde o výpočet polarizovaných ordinací a získání většiny objektů mimo těžiště. Tímto postupem je dosaženo stavu, kdy je klasifikace založena hlavně na druzích typických pro levou nebo pravou stranu dichotomie. Tyto druhy můžeme považovat za dobré indikátory ekologických podmínek. Při prvním dělení je polarita náhodná. V dalších děleních je polarita již určena podobnostmi nových shluků se "sesterským" shlukem vyššího dělení. Např. v dendrogramu na Obr. 9 je shluk 01 podobnější se shlukem 1 než shluk 00.

Obr. 9: Ukázka dělení v TWINSPAN (podle [10]).

TWINSPAN nejenom klasifikuje objekty, ale poskytuje i kritérium použité pro to které dělení. V každém kroku jsou tedy zaznamenány takové druhy, které jsou důležité pro dané dělení. Klasifikace objektů je doplněna klasifikací proměnných a výsledná tabulka je určena právě touto dvourozměrnou klasifikací. Další výhodou TWINSPANu je jeho užitečnost zejména při analýze velkých datových souborů.

Nevýhodou této metody, tak často používané v ekologii společenstev, je nutnost zvolit hraniční hodnoty pro tvorbu pseudo-druhů. Výsledek analýzy je těmito hraničními hodnotami silně ovlivněn.

Příklad 2

Na příkladu 63 taxonů korýšů vyskytujících se v 18 vzorcích ukážeme výsledek shlukování metodou TWINSPAN. Použitá data byla stejná jako v příkladu 1, až na vyjádření početnosti taxonů. Jednotlivé taxony korýšů byly v tomto případě kvantifikovány jejich procentuálním zastoupením. Jako hraniční hodnoty pro tvorbu pseudo-druhů byly použity hodnoty 0, 2, 5, 10, 20. Další nastavení se týká minimální velikosti shluků pro další dělení, které bylo nastaveno na pět objektů. Analýza byla provedena v programu WinTWINS (TWINSPAN for Windows), volně přístupném na http://www.canodraw.com/wintwins.htm. Výsledkem analýzy je popis jednotlivých dělení shluků. Při prvním dělení se tvoří shluky 0 a 1, určeny jsou indikační druhy i s jejich polaritou při dělení (Sidcry1 (-), Diabra 2 (+)) a seznam objektů patřících do shluků 0 a 1. V případě shluku 1 vidíme jako indikační druh Diabra 2, což je druhý pseudo-druh taxonu Diabra. Počet objektů v obou shlucích je větší než pět, proto dělení shluků dále pokračuje. Při druhém dělení vznikají shluky 00 a 01, při třetím dělení shluky 10 a 11 atd. Výsledek, který je v případě použití softwaru WinTWINS pouze textový, lze vykreslit v podobě dendrogramu (Obr. 10). Je patrné, že v tomhle konkrétním příkladu je rozdělení lokalit metodou TWINSPAN velice podobné výsledku hierarchického aglomerativního shlukování s použitím shlukovacího algoritmu nejvzdálenějšího souseda (Hierarchické aglomerativní shlukování Obr. 4).

Obr. 10: Ukázka výsledku shlukové analýzy společenstev korýšů metodou TWINSPAN (podle [5]).

Součástí výstupů je také seřazená dvourozměrná tabulka s označením příslušnosti všech objektů i proměnných k jednotlivým shlukům (Tabulka 3). V posledním sloupci je označení shluků pro původní proměnné, v posledních pěti řádcích označení shluků pro původní objekty. Hodnoty v seřazené tabulce vycházejí z primární datové tabulky. Původní hodnoty (v našem případě procentuální zastoupení jednotlivých druhů korýšů) byly převedeny na kategorie podle hraničních hodnot stanovených uživatelem (v našem případě je nastavení hraničních hodnot 2, 5, 10, 20 a tak byla např. hodnota 6 převedena na kategorii 2, hodnota 12 na kategorii 3 atd.).

Tabulka 3: Výsledná seřazená dvourozměrná tabulka se zařazením objektů a proměnných do shluků metodou TWINSPAN. (podle [5])

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity