Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Podobnosti a vzdálenosti ve vícerozměrném prostoru Úvod

Logo Matematická biologie

Úvod

Schopnost stanovit vzdálenost mezi dvěma vektory či jejich podobnost je jednou ze základních dovedností, potřebných pro shlukování či klasifikaci objektů popsaných vektory hodnot jejich reprezentativních vlastností. Na základě stanovených hodnot vzdálenosti či podobnosti je možné vytvářet množiny sobě blízkých vektorů (či zprostředkovaně samotných reálných objektů). Nebo je možné na základě stanovené vzdálenosti zařadit či nezařadit hodnocené vektory do již definovaných množin – klasifikačních tříd, a tak tyto vektory (objekty) klasifikovat. Zařazení do klasifikačních tříd se standardně děje na základě minimální vzdálenosti – vektor zařadíme do té klasifikační třídy, která je klasifikovanému vektoru nejbližší.

Na základě dosud uvedeného již zřejmě vyplývá, že nebude stačit umět jen stanovit vzdálenost (podobnost) dvou vektorů, nýbrž bude třeba umět stanovit vzdálenost (podobnost) mezi klasifikovaným vektorem a vytvořenými klasifikačními třídami nebo dokonce obecněji, mezi dvěma množinami vektorů, z nichž jedna může být pouze jednoprvková. Klasifikační třídy mohou být vyjádřeny deterministicky pomocí výčtu nějak stanovených reprezentativních vektorů (jednoho či více) nebo nedeterministicky např. pomocí pravděpodobnostních charakteristik rozložení vektorů v dané množině.

Vektory navíc nemusí vždy obsahovat jen kvantitativní (číselné) hodnoty, nýbrž i hodnoty kvalitativní (např. logické nebo definované výčtem více možností). I v takových případech je nepochybně užitečné umět stanovit jejich vzdálenost (podobnost).

Z těchto všech důvodů bude následný text po kapitolce o základním vymezení pojmů strukturován do dvou částí. První část se zabývá postupy pro stanovení vzdálenosti či podobnosti dvou vektorů, druhá část se pak bude zabývat metodami určení vzdálenosti dvou množin. První část obsahuje kapitoly zabývajících se určením

  • vzdálenosti mezi dvěma vektory se složkami, jejichž hodnoty jsou kvantitativní;
  • podobnosti dvou vektorů se složkami, jejichž hodnoty jsou kvantitativní;
  • vzdálenosti mezi dvěma vektory se složkami, jejichž hodnoty jsou kvalitativní;
  • podobnosti dvou vektorů se složkami, jejichž hodnoty jsou kvalitativní.

Druhá, navazující část, která předpokládá znalosti z části první, bude pojednávat o metodách určení

  • vzdálenosti mezi dvěma množinami vektorů na základě deterministických metrik;
  • určení vzdálenosti mezi dvěma množinami vektorů na základě metrik používajících pravděpodobností charakteristiky.
 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity