Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Shluková analýza Shluková hierarchická analýza Hierarchické shlukování

Logo Matematická biologie

Polytetické metody

 

U polytetických metod probíhá dělení souboru na základě všech proměnných. Shluky vytvořené polytetickou metodou jsou homogennější než shluky vytvořené monotetickou metodou.

Mezi ekology je velice oblíbená metoda two way indicator species analysis (český název pro tuto metodu není zaužívaný) a program TWINSPAN. Jde o polytetickou metodu, která umožňuje zpracovat rozsáhlé soubory objektů. Dichotomická dělení jsou provázena stanovením indikátorových proměnných. V ekologických studiích jsou proměnnými obvykle početnosti druhů.

TWINSPAN pracuje pouze s kvalitativními daty. Aby mohla být zahrnuta informace o kvantitě druhů, byl vyvinut kvalitativní ekvivalent druhové abundance, tzv. pseudo-druh (pseudo-species). Každá abundance druhu je nahrazena přítomnosti jednoho nebo více pseudo-druhů. Čím víc je druh početnější, tím víc pseudo-druhů je definováno. Každý pseudo-druh je definován minimální abundancí korespondujícího druhu, tzv. hraniční hodnotou (cut level, cut-off level). Každý druh může být vyjádřen několika pseudo-druhy. Pseudo-druh je tedy přítomen, pokud zastoupení druhu přesáhne hraniční hodnotu (Tabulka 2).

Tabulka 2: Ukázka tvorby pseudo-druhů pro TWINSPAN při použití hraničních hodnot 0, 5, 10, 20 (podle [10]).

Výhoda nahrazení kvantitativní proměnné několika kvalitativními proměnnými spočívá v tom, že když abundance druhu vykazuje unimodální odezvu podél gradientu, každý pseudo-druh také vykazuje unimodální křivku odezvy, a když je křivka odezvy pro abundanci zešikmená, pak se křivky odezev pseudo-druhů liší ve svých optimech.

Proces dělení objektů do shluků probíhá v TWINSPANu pomocí korespondenční analýzy. Objekty jsou rozděleny na levou (negativní) stranu a pravou (pozitivní) stranu dichotomie podle jejich skóre na první ose korespondenční analýzy. Osa je rozdělena v centroidu (těžišti). V těžišti je ovšem zpravidla umístěno vícero objektů, a tím je jejich klasifikace závislá na mnohých náhodných faktorech. Proto se ordinace zopakuje s přiřazením větší váhy druhům, které upřednostňují jednu nebo druhou stranu dichotomie. Tyto druhy jsou tzv. diferenční, obvykle nejsou zaznamenány na stejných lokalitách. Algoritmus je komplikovaný, jde o výpočet polarizovaných ordinací a získání většiny objektů mimo těžiště. Tímto postupem je dosaženo stavu, kdy je klasifikace založena hlavně na druzích typických pro levou nebo pravou stranu dichotomie. Tyto druhy můžeme považovat za dobré indikátory ekologických podmínek. Při prvním dělení je polarita náhodná. V dalších děleních je polarita již určena podobnostmi nových shluků se "sesterským" shlukem vyššího dělení. Např. v dendrogramu na Obr. 9 je shluk 01 podobnější se shlukem 1 než shluk 00.

Obr. 9: Ukázka dělení v TWINSPAN (podle [10]).

TWINSPAN nejenom klasifikuje objekty, ale poskytuje i kritérium použité pro to které dělení. V každém kroku jsou tedy zaznamenány takové druhy, které jsou důležité pro dané dělení. Klasifikace objektů je doplněna klasifikací proměnných a výsledná tabulka je určena právě touto dvourozměrnou klasifikací. Další výhodou TWINSPANu je jeho užitečnost zejména při analýze velkých datových souborů.

Nevýhodou této metody, tak často používané v ekologii společenstev, je nutnost zvolit hraniční hodnoty pro tvorbu pseudo-druhů. Výsledek analýzy je těmito hraničními hodnotami silně ovlivněn.
 

Příklad 2

Na příkladu 63 taxonů korýšů vyskytujících se v 18 vzorcích ukážeme výsledek shlukování metodou TWINSPAN. Použitá data byla stejná jako v příkladu 1, až na vyjádření početnosti taxonů. Jednotlivé taxony korýšů byly v tomto případě kvantifikovány jejich procentuálním zastoupením. Jako hraniční hodnoty pro tvorbu pseudo-druhů byly použity hodnoty 0, 2, 5, 10, 20. Další nastavení se týká minimální velikosti shluků pro další dělení, které bylo nastaveno na pět objektů. Analýza byla provedena v programu WinTWINS (TWINSPAN for Windows), volně přístupném na http://www.canodraw.com/wintwins.htm. Výsledkem analýzy je popis jednotlivých dělení shluků. Při prvním dělení se tvoří shluky 0 a 1, určeny jsou indikační druhy i s jejich polaritou při dělení (Sidcry1 (-), Diabra 2 (+)) a seznam objektů patřících do shluků 0 a 1. V případě shluku 1 vidíme jako indikační druh Diabra 2, což je druhý pseudo-druh taxonu Diabra. Počet objektů v obou shlucích je větší než pět, proto dělení shluků dále pokračuje. Při druhém dělení vznikají shluky 00 a 01, při třetím dělení shluky 10 a 11 atd. Výsledek, který je v případě použití softwaru WinTWINS pouze textový, lze vykreslit v podobě dendrogramu (Obr. 10). Je patrné, že v tomhle konkrétním příkladu je rozdělení lokalit metodou TWINSPAN velice podobné výsledku hierarchického aglomerativního shlukování s použitím shlukovacího algoritmu nejvzdálenějšího souseda (Hierarchické aglomerativní shlukování Obr. 4).

 

Obr. 10: Ukázka výsledku shlukové analýzy společenstev korýšů metodou TWINSPAN (podle [5]).

Součástí výstupů je také seřazená dvourozměrná tabulka s označením příslušnosti všech objektů i proměnných k jednotlivým shlukům (Tabulka 3). V posledním sloupci je označení shluků pro původní proměnné, v posledních pěti řádcích označení shluků pro původní objekty. Hodnoty v seřazené tabulce vycházejí z primární datové tabulky. Původní hodnoty (v našem případě procentuální zastoupení jednotlivých druhů korýšů) byly převedeny na kategorie podle hraničních hodnot stanovených uživatelem (v našem případě je nastavení hraničních hodnot 2, 5, 10, 20 a tak byla např. hodnota 6 převedena na kategorii 2, hodnota 12 na kategorii 3 atd.).

Tabulka 3: Výsledná seřazená dvourozměrná tabulka se zařazením objektů a proměnných do shluků metodou TWINSPAN. (podle [5])

 

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity