Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Klasifikace Sekvenční klasifikace Úvod do sekvenční klasifikace

Logo Matematická biologie

Úvod do sekvenční klasifikace

V dosud popisovaných metodách pro vymezení klasifikačních tříd jsme předpokládali, že všechny klasifikované objekty či subjekty jsou popsané hodnotami konstantního počtu proměnných. Je zřejmé, že nepřiměřený počet proměnných může při klasifikaci způsobit potíže. Malý počet proměnných (malé množství informace) může být příčinou nesprávné klasifikace, naopak zjišťování velkého množství dat může být z hlediska cílů klasifikace nepřiměřeně pracné, případně nákladné, nebo zpravidla obojí. Jednou z možností, jak nalézt kompromis mezi chybou klasifikace a cenou určení hodnot proměnných, je sekvenční klasifikace, která spočívá v klasifikaci objektů popisovaných rostoucím množstvím proměnných, přičemž okamžik ukončení klasifikace, a tím celkovým počet proměnných, stanoví klasifikátor sám na základě předem stanoveného kritéria posuzujícího kvalitu rozhodnutí. Algoritmus řízení sekvenční klasifikace může být jednoznačně určen předem, např. rozhodovacím (klasifikačním) stromem, nebo může být závislý na vlastnostech výskytu jednotlivých právě zpracovávaných objektů. V těchto učebních textech se budeme věnovat základním principům druhého přístupu. Zájemcům o metody používající klasifikační stromy lze doporučit publikaci [2].

Předpokládejme, že -rozměrný prostor je hraničními plochami rozdělen na R disjunktních oblastí , r = 1, 2, …, R, které reprezentují představu klasifikátoru o klasifikačních třídách. Proto je objekt , který se nachází v oblasti daného prostoru, zařazen do třídy . Jestliže se jedná o případ neseparabilních klasifikačních tříd, může dojít k chybnému zatřídění objektu. Pravděpodobnost chybného zatřídění je zřejmě tím větší, čím menší je vzdálenost objektu od hranice. Máme-li zadáno kritérium ukončení klasifikačního procesu například pomocí maximální přípustné pravděpodobnosti chybného rozhodnutí, lze si toto kritérium znázornit graficky podle obr.1. Prostor je hranicí rozdělen na dvě oblasti a , které reprezentují klasifikační třídy. Okolo rozdělující hraniční plochy je oblast nejistoty, ve které je pravděpodobnost chyby větší než předepsaná. Nachází-li se objekt v oblasti , je potřeba v klasifikačním procesu pokračovat přidáním a zpracováním další informace (tedy další proměnné), je-li objekt mimo tuto oblast, lze klasifikaci ukončit.
 
Obr.1: Princip sekvenční klasifikace

Každá hodnota proměnné nese určité množství informace o klasifikovaném objektu a toto množství je obecně pro jednotlivé proměnné různé. Intuitivně lze usoudit, že rozhodovací proces bude možné ukončit dříve, pokud bude objekt vyjádřen nejdříve proměnnými nesoucími největší množství informace. Proměnné můžeme seřadit například podle hodnoty kriteriálních vztahů uvedených v podkapitole o selekci proměnných .

Po seřazení proměnných je nutné zvolit kritérium pro řízení sekvenčního klasifikátoru. V následujících podkapitolách si představíme čtyři nejběžněji používaná kritéria, a to Waldovo kritérium, Reedovo kritérium, modifikované Waldovo kritérium a modifikované Reedovo kritérium.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity