Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Shluková analýza Validace shlukové analýzy Daviesův-Bouldinův validační index (Davies-Bouldin validity index)

Logo Matematická biologie

Daviesův-Bouldinův validační index (Davies-Bouldin validity index)

Daviesův-Bouldinův validační index je podíl sumy vnitro-shlukového rozložení a mezi-shlukového rozložení. Hodnoty tohoto indexu získáme ze vzorce:

(2)
 
kde je počet shluků,  je průměrná vzdálenost objektů ve shluku od středu shluku a   je vzdálenost mezi středy shluků, které mohou být reprezentovány centroidy nebo medoidy. Optimální počet shluků je indikován nízkými hodnotami tohoto indexu, které získáme, když jsou shluky kompaktní a daleko od sebe.

 

Příklad 3

Výpočet Daviesova-Bouldinova validačního indexu si představíme na případu zubních vzorců savců. Jako vstupní data použijeme data z příkladu 1 z kapitoly Nehierarchická shluková analýza [l1] .

V tabulce 5 vidíme zařazení savců do shluků nehierarchickou shlukovou metodou k-průměrů pro různé nastavení počtu shluků. Připomeňme, že při nehierarchické metodě k-průměrů musíme definovat počet skupin k předem. Proto analýzu provádíme pro několik různých skupin k a následně použijeme validační index k určení optimálního počtu shluků.

Výsledkem metody k-průměrů jsou kromě zařazení objektů do shluků i hodnoty vzdálenosti objektů od centroidů ( Tabulka 5) a vzdálenosti mezi centroidy shluků ( Tabulka 6). Tyto použijeme při výpočtu validačního indexu. Výpočet ukážeme pro počet shluků k = 4 ( Tabulka 6).

Tabulka 5: Výsledek shlukování 32 druhů savců podle zubních vzorců metodou k-průměrů pro k = 2, k = 3, ... k =6. Výsledky jednotlivých analýz jsou uvedeny v příslušných sloupcích. Hodnoty v tabulce označují pořadové číslo shluku (sloupec a) a vzdálenost od centroidu shluku (sloupec d).
 
Tabulka 6: Schéma výpočtu Daviesova-Bouldinova validačního indexu pro čtyři shluky vytvořeny metodou k-průměrů 32 savců dle zubních vzorců.

Stejným postupem je možné spočítat hodnoty Daviesova-Bouldinova validačního indexu pro různá nastavení počtu shluků. Nízká hodnota tohoto indexu indikuje optimální počet shluků.

Podle Daviesova-Boudinova validačního indexu je zjevné, že rozdělení savců do čtyř shluků je optimální. Shluky jsou v tomto případě kompaktní a dobře odděleny, na což poukazuje nízká hodnota validačního indexu ( Obr. 2). Počet shluků k = 4 se i z biologického hlediska zdá nejvhodnější; jednu skupinu tvoří hmyzožravce (netopýry a krtek), druhou hlodavci a zajícovci, třetí dravce a poslední kopytníky.

 
Obr. 2: Daviesův-Boudinův validační index pro 2, 3, ... až 6 shluků vytvořených metodou k-průměrů 32 druhů savců podle zubních vzorců.
 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity