Metriky pro určení vzdálenosti mezi dvěma vektory s kvantitativními hodnotami souřadnic
Tyto metriky dominantně vycházejí z pojmu kontingenční matice, resp. tabulka.
Vysvětlení pojmu 5.1 Předpokládejme, že hodnoty uvažovaných vektorů patří do konečné k-prvkové množiny F kategoriálních, nebo případně diskrétně kvantitativních hodnot. Dále předpokládejme, že máme vektory x,y F n, kde n je jejich rozměr a nechť A(x,y) = [aij], i,j F, je matice o rozměru k k, a její prvky aij jsou určeny počtem případů, kdy se hodnota i nachází na určité pozici ve vektoru x a současně se na téže pozici nachází hodnota j ve vektoru y. Matici A nazýváme kontingenční tabulkou (maticí). |
Pokud je kontingenční tabulka rozměru 2 x 2, tj. k = 2, nazýváme ji čtyřpolní tabulkou, slouží ke srovnání dichotomických znaků.
Kromě prostého popisu četností kombinací hodnot dvou znaků a výpočtu vzdáleností, či podobností dvou vektorů hodnot uvedených vlastností, nabízí kontingenční tabulka také možnost testování vztahu mezi oběma hodnotami .
Příklad 5.1:
Předpokládejme, že množina F obsahuje symboly {0, 1, 2}, tj. k = 3 a vektory x a y jsou x = (0, 1, 2, 1, 2, 1) a y = (1, 0, 2, 1, 0, 1), n = 6. Určete kontingenční matici a ukažte, že součet hodnot všech jejích prvků je roven rozměru vektorů.
Řešení:
Kontingenční matice A(x,y) je podle Vysvětlení pojmu 5.1
Součet hodnot všech prvků matice A(x,y) je roven
.
a je tedy týž jako rozměr obou vektorů.
Vysvětlení pojmu 5.2 Hammingova metrika vzdálenosti dvou vektorů x a y splňujících podmínky z Vysvětlení pojmu 5.1 je určena počtem pozic, v nichž se oba vektory liší, tj. |
|
||
tj. je dána součtem všech prvků kontingenční matice A podle def.37, které leží mimo hlavní diagonálu. |
Jak lze snadno usoudit z uvedeného Vysvětlení pojmu, určitě není náhodná shoda jména s metrikou uvedenou ve Vysvětlení pojmu 3.2 této výukové jednotky.
Pro k = 2, kdy jsou hodnoty obou vektorů binární, se definiční vztah Hammingovy vzdálenosti transformuje na
, |
kde třetí člen v závorce kompenzuje případ, kdy jsou hodnoty xi i yi rovny jedné a součet prvních členů v závorce je tím pádem roven dvěma, nicméně nastává shoda hodnot, která k celkové vzdálenosti nemůže přispět. Protože xi a yi nabývají hodnot pouze 0 a 1, můžeme také psát
a díky speciálnímu případu hodnot xi a yi je možná i nejjednodušší forma
. |
V případě bipolárních vektorů, kdy jednotlivé složky vektorů nabývají hodnot +1 a -1, je Hammingova vzdálenost určena vztahem
. |
Příklad 5.2
Určete Hammingovu vzdálenost vektorů z předchozího příkladu, tj. x = (0, 1, 2, 1, 2, 1) a y = (1, 0, 2, 1, 0, 1).
Řešení:
Vzájemným porovnáním obou vektorů lze určit, že se oba vektory liší v první, druhé a páté souřadnici, to znamená, že se oba vektory liší ve třech pozicích, což definuje hodnotu Hammingovy vzdálenosti obou vektorů, tj . dHQ(x,y) = 3.
Chceme-li určit tuto vzdálenost z kontingenční matice A(x,y) podle vztahu (37), pak je vzdálenost podle vztahu (38) určena součtem všech prvků matice A(x,y) mimo hlavní diagonálu. Tedy dHQ(x,y) = a12 + a21 + a31 = 1 + 1 + 1 = 3.
Příklad 5.3
Určete Hammingovu vzdálenost binárních vektorů x = (0, 1, 1, 0, 1) a y = (1, 0, 0, 0, 1).
Řešení:
Podle definičního principu je vzdálenost obou vektorů dána počtem pozic, ve kterých se oba vektory liší, tj. dHQB(x,y) = 3.
Použijeme-li vztah (39), je dHQB(x,y) rovna
Podle vztahu (40) je
Konečně, využijeme-li vztah (41), je
Příklad 5.4
Určete Hammingovu vzdálenost dvou bipolárních vektorů x = (1, 1, 1, -1, 1) a y = (1, -1, 1, -1, -1).
Řešení:
Podle definičního principu se oba vektory liší ve dvou pozicích, tj. dHQP(x,y) = 2.
Z kontingenční matice, která je pro tento případ rovna
je dHQP(x,y) rovna součtu hodnot prvků ležících mimo hlavní diagonálu, tj. dHQP(x,y) = 2.
Použijeme-li vztah (42), je také