Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Podobnosti a vzdálenosti ve vícerozměrném prostoru Metriky pro určení vzdálenosti a podobnosti mezi dvěma vektory Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic

Logo Matematická biologie

Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic

Tyto metriky dominantně vycházejí z pojmu kontingenční matice, resp. tabulka.

Vysvětlení pojmu 5.1

Předpokládejme, že hodnoty uvažovaných vektorů patří do konečné k-prvkové množiny F kategoriálních, nebo případně diskrétně kvantitativních hodnot. Dále předpokládejme, že máme vektory x,y  F n, kde n je jejich rozměr a nechť A(x,y) = [aij], i,j  F, je matice o rozměru k  k, a její prvky aij jsou určeny počtem případů, kdy se hodnota i nachází na určité pozici ve vektoru x a současně se na téže pozici nachází hodnota j ve vektoru y. Matici A nazýváme kontingenční tabulkou (maticí).

 

Pokud je kontingenční tabulka rozměru 2 x 2, tj. k = 2, nazýváme ji čtyřpolní tabulkou, slouží ke srovnání dichotomických znaků.

Kromě prostého popisu četností kombinací hodnot dvou znaků a výpočtu vzdáleností, či podobností dvou vektorů hodnot uvedených vlastností, nabízí kontingenční tabulka také možnost testování vztahu mezi oběma hodnotami .

Příklad 5.1:

Předpokládejme, že množina F obsahuje symboly {0, 1, 2}, tj. k = 3 a vektory x a y jsou x = (0, 1, 2, 1, 2, 1) a y = (1, 0, 2, 1, 0, 1), n = 6. Určete kontingenční matici a ukažte, že součet hodnot všech jejích prvků je roven rozměru vektorů.

Řešení:

Kontingenční matice A(x,y) je podle Vysvětlení pojmu 5.1

(37)

 

Součet hodnot všech prvků matice A(x,y) je roven

.

a je tedy týž jako rozměr obou vektorů.     

Vysvětlení pojmu 5.2

Hammingova metrika vzdálenosti dvou vektorů x a y splňujících podmínky z Vysvětlení pojmu 5.1 je určena počtem pozic, v nichž se oba vektory liší, tj.

.

(38)
tj. je dána součtem všech prvků kontingenční matice A podle def.37, které leží mimo hlavní diagonálu.

Jak lze snadno usoudit z uvedeného Vysvětlení pojmu, určitě není náhodná shoda jména s metrikou uvedenou ve Vysvětlení pojmu 3.2 této výukové jednotky.

Pro k = 2, kdy jsou hodnoty obou vektorů binární, se definiční vztah Hammingovy vzdálenosti transformuje na

,

(39)

kde třetí člen v závorce kompenzuje případ, kdy jsou hodnoty xi i yi rovny jedné a součet prvních členů v závorce je tím pádem roven dvěma, nicméně nastává shoda hodnot, která k celkové vzdálenosti nemůže přispět. Protože xi a yi nabývají hodnot pouze 0 a 1, můžeme také psát

(40)

a díky speciálnímu případu hodnot xi a yi je možná i nejjednodušší forma

.

(41)

V případě bipolárních vektorů, kdy jednotlivé složky vektorů nabývají hodnot +1 a -1, je Hammingova vzdálenost určena vztahem

.

(42)

Příklad 5.2

Určete Hammingovu vzdálenost vektorů z předchozího příkladu, tj. x = (0, 1, 2, 1, 2, 1) a y = (1, 0, 2, 1, 0, 1).

Řešení:

Vzájemným porovnáním obou vektorů lze určit, že se oba vektory liší v první, druhé a páté souřadnici, to znamená, že se oba vektory liší ve třech pozicích, což definuje hodnotu Hammingovy vzdálenosti obou vektorů, tj . dHQ(x,y) = 3.

Chceme-li určit tuto vzdálenost z kontingenční matice A(x,y) podle vztahu (37), pak je vzdálenost podle vztahu (38) určena součtem všech prvků matice A(x,y) mimo hlavní diagonálu. Tedy dHQ(x,y) = a12 + a21 + a31 = 1 + 1 + 1 = 3.     

 

Příklad 5.3

Určete Hammingovu vzdálenost binárních vektorů x = (0, 1, 1, 0, 1) a y = (1, 0, 0, 0, 1).

Řešení:

Podle definičního principu je vzdálenost obou vektorů dána počtem pozic, ve kterých se oba vektory liší, tj. dHQB(x,y) = 3.

Použijeme-li vztah (39), je dHQB(x,y) rovna

Podle vztahu (40) je

Konečně, využijeme-li vztah (41), je

       

Příklad 5.4

Určete Hammingovu vzdálenost dvou bipolárních vektorů x = (1, 1, 1, -1, 1) a y = (1, -1, 1, -1, -1).

Řešení:

Podle definičního principu se oba vektory liší ve dvou pozicích, tj. dHQP(x,y) = 2.

Z kontingenční matice, která je pro tento případ rovna

je dHQP(x,y) rovna součtu hodnot prvků ležících mimo hlavní diagonálu, tj. dHQP(x,y) = 2.

Použijeme-li vztah (42), je také

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity