Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Shluková analýza Validace shlukové analýzy Dunnův validační index

Logo Matematická biologie

Dunnův validační index

Tento index je založen na předpokladu, že nalezené shluky jsou kompaktní a dobře oddělené. Pro všechny oddělené shluky, kde představuje – tý shluk, je Dunnův validační index počítán podle vzorce:

(1)

kde představuje minimální vzdálenost mezi shluky  a (mezishluková vzdálenost),  je maximální vzdálenost uvnitř shluků, je počet shluků. Minimum je počítáno pro všechny shluky, které byly získány. Dunnův index je tedy poměr nejmenší mezishlukové vzdálenosti k největší vnitroshlukové vzdálenosti. Nabývá hodnot od 0 do nekonečna a vysoké hodnoty indexu indikují optimální počet shluků.

Příklad 1

Výpočet Dunnova validačního indexu si představíme na konkrétním případu: jako vstupní data použijeme data z příkladu 1 z kapitoly Hierarchická shluková analýza . Na začátku si ukážeme výpočet Dunnova indexu pro metodu nejvzdálenějšího souseda. Vycházíme z asociační matice, která je založena na Euklidovské vzdálenosti. Matici je potřeba doplnit o přiřazení objektů do shluků, zde bylo použito dělení do pěti shluků (Tabulka 1).

 

Tabulka 1: Asociační matice založená na Euklidovské vzdálenosti a doplněná o příslušnost lokality do shluku dle dvou různých měr vzdálenosti mezi shluky: metody průměrné vazby a metody nejvzdálenějšího souseda. Je zde patrné, že metoda průměrné vazby a metoda nejvzdálenějšího souseda dávají velice podobné výsledky. Vstupní data byla použita z příkladu 1 z kapitoly Hierarchická shluková analýza

Pro snadnější výpočet asociační matici seřadíme dle příslušnosti lokalit do jednotlivých shluků (Tabulka 2). Pak zjistíme maximální vzdálenost mezi lokalitami v jednom shluku a minimální vzdálenost mezi lokalitami z odlišných shluků (Tabulka 3). Analogicky spočítáme Dunnův validační index i pro metodu průměrné vazby (Obr. 1). Dendrogram z metody nejbližšího souseda jsme nehodnotili, jelikož zde došlo k výraznému řetězení shlukovaných objektů (viz příkladu 1 z kapitoly Hierarchická shluková analýza). Podle hodnoty Dunnova indexu je nakonec vybrán ten postup shlukové analýzy, který vede k vyšší hodnotě. V tomto příkladu to je metoda průměrné vazby (Tabulka 1).

Tabulka 2 Asociační matice založená na Euklidovské vzdálenosti a seřazená dle příslušnosti lokality do shluku dle metody nejvzdálenějšího souseda
Tabulka 3 Schéma výpočtu Dunnova indexu pro shlukovou analýzu založenou na Euklidovské vzdálenosti dle metody nejvzdálenějšího souseda
Obr. 1: Dendrogramy vytvořené pomocí stejné metriky vzdálenosti (Euklidovská vzdálenost) a dvou různých měr vzdálenosti mezi shluky: metody průměrné vazby a metody nejvzdálenějšího souseda ( příkladu 1 z kapitoly Hierarchická shluková analýza [l3]  ). Dendrogramy jsou doplněny hodnotami Dunnova validačního indexu. Podle hodnot Dunnova indexu je vhodnější na daná data použít metodu průměrné vazby než metodu nejvzdálenějšího souseda.

Příklad 2

V předchozím příkladu jsme si ukázali, jak se dají validační indexy použít pro výběr míry vzdálenosti mezi shluky. Ovšem validační indexy lze také použít pro rozhodnutí, do kolika shluků je nejlepší naše data rozdělit. Toto využití Dunnova validačního indexu si představíme na datech z předchozího příkladu. Nyní víme, že optimální míra mezi shluky je metoda průměrné vazby. Vybereme si tedy metodu průměrné vazby a budeme sledovat, do kolika shluků lze nejlépe daná data rozdělit. To znamená, že pro každý možný počet shluků získáme hodnotu Dunnova indexu. Největší hodnota z této množiny hodnot indikuje optimální počet shluků. Na ukázku provedeme výpočet pro počty shluků k = 2, k = 3, až k = 10. Pro výpočet můžeme použít software R, doplněný balíčkem „clValid“. Podle hodnot Dunnova validačního indexu (Tabulka 4) se zdá být optimálním počtem sedm shluků. Hodnota Dunnova validačního indexu je nejvyšší a počet objektů ve shlucích je rozumný. Při dalším dělení souboru (na 8, 9 a 10 shluků) zůstáva hodnota Dunnova indexu stejná.

Tabulka 4 Zařazení lokalit do shluků vytvořených metodou průměrné vazby pro k = 2, k = 3, ... k = 10. Hodnoty Dunnova validačního indexu jsou uvedeny v posledním řádku.
 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity