Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Shluková analýza Shluková hierarchická analýza Hierarchické shlukování

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat |

Úvod do vícerozměrné analýzy dat |

Výstupy z výukové jednotky | Smysl a cíle vícerozměrné analýzy dat | Vícerozměrná data | Grafické znázornění vícerozměrných dat |

Maticové grafy | Vícenásobné krabicové grafy | Ikonové grafy |

Možné problémy vícerozměrných dat a jejich řešení |

Chybějící hodnoty | Problém dvou nul |

Literatura |

Vícerozměrná rozdělení pravděpodobnosti |

Výstupy z výukové jednotky | Výběrové charakteristiky vícerozměrných dat | Vícerozměrná rozdělení pravděpodobnosti |

Vícerozměrné normální rozdělení | Wishartovo rozdělení | Hotellingovo rozdělení |

Ověření normality vícerozměrných dat | Transformace dat |

Nelineární transformace dat | Standardizace dat | Centrování dat | Odstranění vlivu kovariát |

Literatura |

Vícerozměrné statistické testy |

Výstupy z výukové jednotky | Vícerozměrný dvouvýběrový t-test |

Příklad |

Analýza rozptylu pro vícerozměrná data |

Jednorozměrná analýza rozptylu dvojného třídění | Příklad 2 |

Literatura |

Podobnosti a vzdálenosti ve vícerozměrném prostoru |

Metriky pro určení vzdálenosti mezi dvěma vektory s kvalitativními hodnotami souřadnic | Metriky pro určení podobnosti mezi dvěma obrazy s kvalitativní-mi hodnotami souřadnic | Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic | Metriky pro určení podobnosti dvou obrazů s kvantitativními hodnotami souřadnic |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Deterministické metriky pro určení vzdálenosti mezi dvěma množinami vektorů |

Metriky pro určení vzdálenosti mezi dvěma množinami vektorů používající jejich pravděpodobnostn |

Praktické příklady | Literatura |

Asociační matice |

Shluková analýza |

Shluková hierarchická analýza |

Výstupy z výukové jednotky | Úvod | Hierarchické shlukování |

Hierarchické aglomerativní shlukování | Hierarchické divizivní shlukování |

Monotetické metody | Polytetické metody |

Literatura |

Shluková nehierarchická analýza |

Validace shlukové analýzy |

Volba a výběr popisných proměnných |

Poměr rozptylů | Algoritmy selekce proměnných |

Extrakce proměnných |

Ordinační analýzy |

Úvodní tříodstavcový textík | Analýza hlavních komponent (PCA) |

Příklad 1 | Příklad 2 | Příklad 3 | Příklad 4 |

Literatura |

Korespondenční analýza |

Vícerozměrné škálování |

Výstupy z výukové jednotky | Úvod | Data pro vícerozměrné škálování | Nemetrické vícerozměrné škálování |

Základní pojmy a ztrátová funkce | Výpočetní algoritmus | Výhody a nevýhody NMDS | Literatura |

Faktorová analýza |

Vztah ordinačních prostorů |

Redundanční analýza (RDA) | Kanonická korespondenční analýza (CCA) | Analýza hlavních koordinát (co-coordinate analysis) | Co-inertia |

Pokročilejší metody extrakce proměnných |

Analýza nezávislých komponent (ICA) |

Výstupy z výukové jednotky | Úvod do analýzy nezávislých komponent | Výpočetní strategie analýzy nezávislých komponent |

Koeficient špičatosti | Negativní entropie |

Omezení analýzy nezávislých komponent | Příklad | Literatura |

Metody varietního učení |

Klasifikace |

Úvod |

Klasifikace pomocí diskriminačních funkcí |

Výstupy z výukové jednotky | Úvod do klasifikace dat pomocí diskriminačních funkcí | Bayesův klasifikátor – kritérium maximální aposteriorní pravděpodobnosti | Bayesův klasifikátor – kritérium minimální pravděpodobnosti chybného rozhodnutí | Bayesův klasifikátor – kritérium minimální střední ztráty | Bayesův klasifikátor – kritérium maximální pravděpodobnosti | Příklad | Literatura |

Klasifikace podle minimální vzdálenosti |

Výstupy z výukové jednotky | Princip klasifikace podle minimální vzdálenosti |

Metoda nejbližšího souseda | Centroidová metoda | Metoda průměrné vazby |

Souvislost klasifikace podle minimální vzdálenosti s dalšími principy klasifikace | Příklad | Literatura |

Klasifikace pomocí hranic v obrazovém prostoru - FLDA, SVM lineární a nelineární |

Výstupy z výukové jednotky | Úvod do klasifikace pomocí hranic | Fisherova lineární diskriminace |

Příklad |

Metoda podpůrných vektorů |

Literatura |

Sekvenční klasifikace |

Hodnocení úspěšnosti klasifikace |

Príloha A - Základy maticové algebry |

Výstupy z výukové jednotky | Úvod | Vektory | Matice |

Základní pojmy | Operace s maticemi | Specifické parametry matic |

Príloha B - Značení |

Príloha C - Seznam pojmů |

Seznam pojmů z úvodních kapitol | Shluková analýza | Ordinační analýza | Klasifikace |

Statistické modelování | Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Hierarchické aglomerativní shlukování

Aglomerativní shluková analýza pracuje se samostatnými objekty, které jsou shlukovány do větších shluků. V mnohých vědních disciplínách jsou aglomerativní techniky používány častěji než divizivní metody. Existuje mnoho aglomerativních metod, přičemž každá z nich využívá jiný pohled na data.

Základním krokem tohoto shlukování je výpočet podobností/vzdáleností mezi všemi dvojicemi objektů, tj. vytvoření asociační matice. V různých etapách algoritmu posuzujeme podobnost/vzdálenost dvou objektů, podobnost/vzdálenost objektu a shluku a podobnost/vzdálenost dvou shluků. Způsob výpočtu podobnosti/vzdálenosti zásadním způsobem ovlivňuje výsledek shlukování.

V kapitole Podobnosti a vzdálenosti ve vícerozměrném prostoru jsou uvedeny různé míry podobnosti a metriky vzdálenosti. Většinou požadujeme, aby podobnost nabývala hodnot od nuly pro maximální rozdílnost po jedničku pro totožnost. Často se však místo podobností používají z praktických důvodů různé míry vzdálenosti, tentýž jev je tedy měřen v opačném směru. Nevyplývají z toho žádné problémy; ostatně každou míru vzdálenosti lze převést na míru podobnosti , , např. a naopak.

Obecný postup aglomerativního hierarchického shlukování je následující:

Vypočteme asociační matici vhodných měr vzdálenosti/podobnosti.
Proces začneme od rozkladu , tj. od n shluků, z nichž každý obsahuje jeden objekt.
V asociační matici najdeme dva objekty/shluky (-tý a -tý), jejichž vzdálenost je minimální (resp. podobnost je maximální).
Spojíme dva objekty/shluky nalezené v bodě 3 (-tý a -tý) do nového shluku (-tý). V původní matici vymažeme -tý a -tý řádek i sloupec a nahradíme je řádkem i sloupcem pro nový shluk. V tomto novém řádku a sloupci je vzdálenost ke všem původním shlukům vypočítána vhodným způsobem hodnocení vzdálenosti mezi shluky. Řád matice se sníží o jednu.
Zaznamenáme pořadí cyklu rozkladu , dále identifikaci spojených objektů/shluků , a hladinu pro spojení .
Pokud proces vytváření rozkladů již neskončil spojením všech objektů do jediného shluku , pokračujeme znovu bodem 3.

Výsledky hierarchického aglomerativního shlukování se budou lišit podle způsobu, jakým hodnotíme vzdálenosti mezi shluky. V dalším textu stručně doplníme poznatky o vzdálenosti mezi shluky. Způsob vnímání vzdálenosti mezi shluky se označuje také pojmy aglomerativní metoda, aglomerativní postup, nebo shlukovací algoritmus (Obr. 2).

Obr.2: Vnímání vzdálenosti při metodě nejbližšího a nejvzdálenějšího souseda.

Metoda nejbližšího souseda. Při použití této metody se často i značně vzdálené objekty mohou sejít ve stejném shluku, pokud větší počet dalších objektů mezi nimi vytvoří jakýsi most (Obr. 3a). Toto charakteristické řetězení objektů se považuje za nevýhodu, zvláště když máme důvod požadovat, aby shluky měly obvyklý eliptický tvar se zhutněným jádrem.

Metoda nejvzdálenějšího souseda. Tato metoda produkuje shluky, které jsou mezi sebou dobře odděleny (Obr. 3b). Nežádoucí řetězový efekt zde odpadá, naopak je tu tendence ke tvorbě kompaktních shluků, které nebývají velké.

Metoda průměrné vazby vede často k podobným výsledkům jako metoda nejvzdálenějšího souseda.

Centroidová metoda již nevychází ze shrnování informací o mezishlukových vzdálenostech objektů. Kritérium je vzdálenost centroidů. Při této metodě je vzdálenost mezi shluky počítána jako vzdálenost mezi centroidy těchto shluků. Nevýhodou centroidové metody je skutečnost, že v případě spojování dvou shluků velmi rozdílné velikosti bude centroid nového shluku velmi blízko většího shluku (nebo dokonce uvnitř). Vlastnosti menšího shluku se tak do jisté míry ztrácejí. (Obr. 3c)

Wardova metoda je podobná metodě průměrné vazby a centroidové metodě (Obr. 3d). Má tendenci odstraňovat malé shluky, tedy tvořit shluky zhruba shodné velikosti, což je často vítaná vlastnost.

Obr. 3: Ukázka dendrogramu vzniklého metodou nejbližšího souseda (a), metodou nejvzdálenějšího souseda (b), centroidovou metodou (c) a Wardovou metodou (d) a pozice původních dat v dvourozměrném prostoru (podle [11], doplněno).

Příklad 1
Interpretaci výsledku hierarchického aglomerativního shlukování si představíme na konkrétním příkladu. Cílem bylo zjistit podobnost šesti lokalit ve třech časových obdobích z hlediska výskytu korýšů. Zajímalo nás, jestli si jsou lokality podobnější v čase nebo v prostoru. Vstupní matici tvořilo 63 taxonů korýšů vyskytujících se v 18 objektech. Objekty představovalo šest lokalit v záplavové oblasti Dunaje ve třech obdobích (1: 1991–1992 před přehrazením Dunaje, 2: 1993–1997 prvních 5 let po přehrazení, 3: 1999–2004 dalších 6 let po přehrazení). Sledovanými lokalitami byly: D: Dobrohošť, G: Gabčíkovo, B: Bodíky, I: Istragov, K: Kráľovská lúka, S: Sporná sihoť. Početnost jednotlivých taxonů korýšů byl kvantifikován na desetistupňové škále. Charakter dat umožnil použití euklidovské vzdálenosti. Vzdálenost mezi shluky byla určena metodou nevzdálenějšího souseda. Výpočet byl proveden v softwaru Statistica. Další možností je použití softwaru SYN-TAX.

Obr. 4: Ukázka výsledku shlukové analýzy společenstev korýšů (podle [5]).

Interpretace dendrogramu je následující (Obr. 4): na určené hladině spojování 12 (linkage distance) se vytvořilo pět shluků lokalit. Tuto hladinu spojování, na které jsme interpretovaly vzniklé shluky, jsme určily expertním odhadem na základě naší znalosti stavu sledovaných lokalit a jejich společenstev korýšů. První shluk (I) obsahuje lokality D1, G1, B1 – lokality Dobrohošť, Bodíky a Gabčíkovo před přehrazením Dunaje. V tomto shluku jsou si nejpodobnější lokality Gabčíkovo a Bodíky (jsou sloučeny na nižší hladině spojování). Druhý shluk (II) obsahuje lokality I1, K1 (tzn. Istragov a Kráľovská lúka v období před přehrazením). Třetí shluk obsahuje lokality D2, D3, G2, G3, I2 (tzn. Dobrohošť a Gabčíkovo ve druhém a třetím období společně s lokalitou Istragov ve druhém období). V tomto shluku jsou si nejpodobnější lokality Dobrohošť ve druhém období a Istragov taky ve druhém období. Čtvrtý shluk je tvořený lokalitami B2, B3, I3, K2 (tzn. Bodíky ve druhém a třetím období, Istragov ve třetím období a Kráľovská lúka ve druhém období). Poslední pátý shluk je tvořen lokalitami K3, S1, S2, S3 (tzn. Sporná sihoť ve všech obdobích a Kráľovská lúka ve třetím období).

Je velmi žádoucí doplnit takové zhodnocení dendrogramu o popis, co mají dané objekty - v tomto případě lokality v časových obdobích - v jednotlivých shlucích společné a čím se shluky mezi sebou liší. Můžeme uvažovat společný výskyt konkrétních taxonů v jednom shluku a absence jiných taxonů přítomných v jiném shluku apod. K tomu je vhodné seřadit původní datovou tabulku a najít skupiny taxonů typických pro jednotlivé shluky (Tabulka 1). Interpretaci dendrogramu v našem příkladě můžeme teda doplnit o následovná konstatování. Pro shluky I a II je typický druh Moina brachiata, který se v ostatních shlucích nevyskytoval. Dále v těchto dvou shlucích chybí druhy Daphnia galeata, Diaphanosoma orghidani, Disparalona rostrata Macrothrix hirsuticornis, které jsou přítomny ve všech ostatních shlucích. Shluk I se dále vyznačuje nepřítomností druhů Alona rectangula, Pleuroxus aduncus, Sida crystallina, přítomných ve všech ostatních shlucích. Pro třetí shluk jsou typické druhy Ilyocryptus sordidus a Leydigia leydigii, pro čtvrtý druhy Pleuroxus laevis, Pseudochydorus globosus a pro pátý druhy Acroperus neglectus, Ceriodaphnia quadrangula, Ceriodaphnia reticulata. Čtvrtý a pátý shluk jsou si blízké společnou přítomností druhů Alonella nana, Ceriodaphnia megops, Pleuroxus truncatus, Simocephalus serrulatus.

Tabulka 1: Část vstupní tabulky výskytu korýšů na šesti lokalitách ve třech obdobích. Z celkového počtu 63 taxonů je v tabulce uvedeno pouze 19, které se zdají být vhodné k interpretaci shluků vytvořených aglomerativním shlukováním. Druhy i lokality jsou vhodně seřazeny pro lepší interpretaci dendrogramu (Obr. 4).

Podle umístění jednotlivých lokalit v shlucích můžeme konstatovat, že první období před přehrazením Dunaje bylo zcela odlišné od dalších dvou časových období. V dalších dvou sledovaných časových obdobích je zřejmá spíše prostorová podobnost společenstev korýšů než-li časová.

Na Obr. 5 lze vidět, jak různé jsou výsledné dendrogramy při použití různých měr vzdálenosti mezi shluky.

Obr. 5: Dendrogramy vytvořené pomocí stejné metriky vzdálenosti (Euklidovská vzdálenost) a tří různých měr vzdálenosti mezi shluky: metody nejbližšího souseda, metody průměrné vazby a metody nejvzdálenějšího souseda. V případě metody nejbližšího souseda je zjevné silné řetězení objektů. (Společenstva korýšů šesti lokalit ve třech časových obdobích; podle [5].)

Výsledek hierarchického aglomerativního shlukování je ovlivněn na několika úrovních (Obr. 6). Jde nejenom o typ vstupních dat, ale také o jejich případnou transformaci a standardizaci, dále o měření vzdálenosti/podobnosti mezi objekty a následně o měření vzdálenosti mezi shluky. Podle Kováře a Lepše [7] mají transformace dat větší vliv na výsledek shlukování než metoda měření vzdálenosti mezi shluky.

Obr. 6: Výsledek hierarchického aglomerativního shlukování je ovlivněn na několika úrovních (podle [10]).

Může nastat situace, kdy se v asociační matici vyskytnou tzv. shody (ties) – stejné hodnoty u různých dvojic objektů, případně shluků. Dochází k tomu zejména při analýze binárních dat. Existuje několik možností řešení těchto shod v závislosti na typu vazeb mezi objekty, např. spojení všech objektů najednou, paralelní vytvoření skupin (tzv. multiple fusion), nebo náhodné spojení tzv. silent mode, při kterém je výsledek ovlyvněn pořadím objektů v primární matici; dalšími možnostmi jsou např. tzv. single linkage a suboptimal fusions. Různé způsoby vypořádání se se shodami ovšem také ovlivňují výsledný dendrogram.

Hierarchické aglomerativní metody jsou velice populární a jejich výhodou je, že výsledný dendrogram je jednoduše interpretovatelný. Tyto metody jsou vhodné ovšem pouze pro méně objemná data. Velké množství proměnných nebo objektů v dendrogramu je totiž obtížné interpretovat. Kritickým problémem hierarchické aglomerativní analýzy je, že je silně závislá na zvolení vhodné metriky vzdálenosti/koeficientu podobnosti mezi objekty a také na způsobu měření vzdálenosti mezi shluky. Jejich výběr bývá často subjektivní, musí být ovšem vhodně zvoleny vzhledem k charakteru dat a zodpovídat cíli úlohy.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity