Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datStatistické hodnocení biodiverzity Metody hodnocení β-diverzity Vícerozměrné analýzy s přímou vazbou na analýzu biodiverzity Mnohorozměrné nemetrické škálování – NMDS

Logo Matematická biologie

Mnohorozměrné nemetrické škálování – NMDS

Jedná se o neparametrickou metodu, která stejně jako PCoA dokáže pracovat s libovolnou asociační maticí, tedy i maticí indexů b diverzity. NMDS se velmi liší od ostatních ordinačních technik. Ve většině ostatních ordinačních metod se počítá mnoho dimenzí, ale jen dvě bývají zobrazeny. V MDS se na počátku zadá počet dimenzí a následuje výpočet těchto dimenzí tak, aby počet zadaných dimenzí co nejlépe vysvětloval datovou matici. Výpočet běží iterativně a zastaví se na nejlepším možném výsledku nebo po daném počtu iterací. Nepracuje s vlastními čísly, ani vlastními vektory asociační matice.

Metoda používá pouze hodnost (dimenze) nebo informaci z asociační matice podobnosti nebo nepodobnosti. Hodnost matice nám určuje počet lineárně nezávislých řádku matice. Objevují se případy, kde přesné zachování vzdáleností není tak důležité, prioritou místo toho je reprezentovat objekty v menším, specifikovaném počtu dimenzí (často dvě nebo tři, počet nezávislých řádků v matici). Záměrem NMDS je převod libovolné matice podobnosti do euklidovského prostoru. Běžné NMDS techniky se pokouší lokalizovat proměnné v redukovaném prostoru tak, že vzdálenost v ordinačním prostoru má stejnou hodnost pořadí jako vzdálenosti v asociační matici.  Pak algoritmus používá pouze hodnotu pořadí vzdáleností a ne jejich velikost.

Výhoda této metody je, že nepředpokládá linearitu v datech a je méně citlivá na podkovovitý efekt. Není ovlivněna skupinami proměnných, nepravidelně rozloženými pozorováními podél skrytých gradientů, odlehlými hodnotami ani mírným šumem v datech.

NMDS má také určitá omezení. Za prvé, nemůžeme se spolehnout na získání správné konfigurace, dokonce ani na nasimulovaných datech. Část tohoto problému náleží k prvnímu kroku analýzy, ve které jsou data přepočítávána na asociační matici. Tato matice neobsahuje explicitní informaci o proměnné (pouze podobnosti proměnných), a proto jsou ochuzeny ve srovnání s originální datovou maticí.  Za druhé, výběr počáteční konfigurace používaný v NMDS je jeden z největších problémů této metody. Když počáteční konfigurace není vhodně stanovena, je možné, že algoritmus bude umístěn v lokálním minimu, čímž se získávají falešná ordinační skóre. Protože volba počáteční konfigurace je libovolná, nezískáme unikátní řešení. Za třetí, metoda předpokládá, že počet dimenzí datové matice je známý. V praxi se vědec musí spoléhat na své znalosti ohledně optimálního počtu dimenzí. NMDS je citlivé vůči nesprávnému stanovení dimenzionality. Ke stanovení dimenzionality můžeme použít jinou ordinační metodu nebo také Shepardův diagram.

Pro každou iteraci MNDS počítá odchylku od počáteční konfigurace pomocí euklidovské vzdálenosti. Na této vzdálenosti se provádí regrese podle původní datové matice a jsou předpovídány ordinační vzdálenosti pro každý vzorek. Čtverec rozdílu odchylky počáteční konfigurace od předpovídané vzdálenosti se podle regrese používá ke stanovení dobrého „dosednutí“ regrese. Toto „dosednutí“ se nazývá stres a může být počítáno několika způsoby, nejčastěji se používá vztah pro Kruskalův stres (Kruskal’s stress formula):

(1.1)

kde je vzdálenost od počáteční konfigurace a je předpovídaná vzdálenost podle regrese.

Díky tomu, že NMDS může počítat nad libovolnou matici vzdáleností, lze tímto odstranit problém dvojité nuly, což je největší výhoda NMDS.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity