Základní pojmy a ztrátová funkce
Uvažujme objektů popsaných -rozměrným vektorem a matici nepodobností , ke kterým je hledána optimální konfigurace bodů v -rozměrném prostoru (). Matice nepodobností je čtvercová matice: , kde je nepodobnost mezi -tým a -tým objektem.
Na hlavní diagonále matice jsou nuly, tj. pro všechny sledované objekty platí = 0. Na rozdíl od metrického škálování, kde jsou vzdálenosti v redukovaném prostoru aproximací původních vzdáleností v asociační matici, je u NMDS zachováno pouze pořadí vzdáleností mezi objekty.
Pro nemetrické škálování platí vztah
, |
(27) |
kde je monotónní funkce, pro kterou platí pro všechna .
Předpokladem NMDS je zachování pořadí vzdáleností mezi body v konfiguraci .
(28) |
s pořadím původních nepodobností
(29) |
kde index pořadí určuje míru nepodobnosti od nejmenší k největší. Hodnoty představují odhady měr vzdáleností mezi objekty o souřadnicích v obecném Minkowského prostoru
Vzdálenost v konfiguraci bývá často počítána jako Euklidova vzdálenost, což je Minkowkého metrika pro . Předpoklad zachování pořadí vzdáleností a nepodobností je mnohem mírnější než předpoklad shody jejich číselných hodnot (jak je tomu u metrického MDS). Nemetrické MDS je proto robustnější k odlehlým hodnotám.
Objekty se nedají seřadit tak, aby jejich vzájemné vzdálenosti v redukovaném prostoru byly stejné jako původní hodnoty vzdáleností/nepodobností. Míra neurčitosti, která hodnotí, jak dobře odhadnuté souřadnice bodů v konfiguraci reprodukují původní nepodobnosti, je ztrátová funkce (loss function, goodness of fit). Ztrátová funkce nabývá hodnot od nuly do jedné; čím je hodnota nižší, tím je výsledek lepší.
Základním výstupem NMDS jsou odhady souřadnic objektů v -rozměrném prostoru s odpovídajícími odhady vzdáleností ' podle (30). Dále jsou počítány tzv. disparity (disparities) , představující funkční hodnoty vzdáleností mezi objekty tj. . Disparity jsou určovány tak, aby byly co nejblíže odhadnutým vzdálenostem a přitom zachovávaly podmínku monotónnosti, tj. když , potom .
Nemetrické řešení v -rozměrném prostoru je pak získáno ordinací, která minimalizuje ztrátovou funkci nazývanou ve svém minimu STRESS. STRESS si můžeme přestavit jako rozsah, ke kterému má být prostorová konfigurace bodů stlačena ("stressed"), aby byla dosažena původní vzdálenost .
(31) |
Grafické znázornění vztahu mezi disparitami , vzdálenostmi v konfiguraci (obě na ose y) a mírami nepodobnosti (na ose x) nazýváme Shepardův diagram. Zobrazuje tedy vztah původního a redukovaného prostoru. Shepardův diagram má podobu bodového grafu s proloženou křivkou monotónní regrese. Škála na ose x odpovídá škále v matici nepodobností, škála na ose y pak rozpětí odhadů vzdáleností a disparit. Každý bod představuje jeden prvek v matici nepodobností. V ideálním případě leží všechny body na křivce tvořené hodnotami disparit; v tomto případě je hodnota STRESSu rovná nule. Čím jsou body rozptýlenější kolem křivky, tím větší nepřesnosti nastaly nahrazováním měr nepodobností disparitami a tím vyšší je hodnota STRESSu.