Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Klasifikace Úvod Klasifikace dat

Logo Matematická biologie

Klasifikace dat

Klasifikace dat je rozsáhlou oblastí analýzy dat, jejímž cílem je rozdělení daných objektů či subjektů do skupin, které bývají (ale nutně nemusejí) být předem definované. Pokud skupiny nejsou předem definované, jedná se o shlukování, které již bylo podrobně popsáno v samostatné kapitole těchto učebních materiálů . Vidíme tedy, že z tohoto pohledu spadá shluková analýza pod klasifikaci dat.

Klasifikaci dat zpravidla předchází předzpracování dat, které zahrnuje vypořádání se s chybějícími hodnotami či odlehlými hodnotami , rovněž i transformaci dat a případně další úpravy dat. Po předzpracování obvykle následuje redukce dat, která umožní vyjádření původních proměnných pomocí menšího počtu skrytých (latentních) proměnných (tzn. extrakci ) či případně výběr takových popisných proměnných z původního souboru (tzn. selekci , které od sebe dobře odlišují skupiny objektů či subjektů, čímž získáme lepší výsledky klasifikace.

Klasifikace dat se používá například pro zjištění demence na základě kognitivních testů, odhalení genetického onemocnění na základě dat z microarray experimentů, rozpoznávání druhů živočichů či rostlin, rozpoznání vadných výrobků (např. matiček s vnitřní prasklinou od matiček bez vady), rozpoznání tváře osob při vstupu do zabezpečené budovy apod. Cílem klasifikace dat je tedy:

  • rozhodnutí o typu či charakteru objektu – např. že daná rostlina je pomněnka lesní (Myosotis sylvatica), že dané zvíře je medvěd hnědý (Ursus arctos), nebo že daná budova je vystavěna v renesančním slohu – což je klasifikační, resp. rozpoznávací úloha;
  • posouzení kvality stavu analyzovaného objektu – např. zda je pacient v pořádku nebo má infarkt myokardu, cirhózu jater, apod. – opět klasifikační, resp. rozpoznávací úloha;
  • rozhodnutí o budoucnosti objektu – např. zda lze pacienta léčit a vyléčit, zda les po 20 letech odumře, jaké bude sociální složení obyvatelstva na daném území v daném čase – což je klasifikační, resp. predikční úloha.

V mnoha oblastech se pojem klasifikace a predikce nerozlišuje. V některých vědních oborech však mají tyto pojmy různý význam, přičemž pojem klasifikace je používán, použije-li se klasifikační algoritmus pro známá data. Pokud jsou data nová, pro která dopředu neznáme klasifikační třídu, pak hovoříme o predikci klasifikační třídy. V jiných oblastech, v nichž se pojmy klasifikace a predikce také rozlišují, se však pojem klasifikace používá, pokud vybíráme identifikátor klasifikační třídy z určitého diskrétního konečného počtu možných identifikátorů. Pokud určujeme (predikujeme) spojitou hodnotu, např. pomocí regrese, pak hovoříme o predikci, i když tento pojem nemá časovou dimenzi. Je tedy patrné, že terminologie není používána jednotně a záleží tudíž na jednotlivých vědních oborech, jak budou termíny predikce a klasifikace chápány.

Nejednotnost je i při použití termínu diskriminační analýza, který je často chápán jako synonymum klasifikace dat. Ve skutečnosti je však diskriminační analýza podskupinou klasifikačních metod. Klasifikace dat bývá rovněž nazývána jako dolování z dat (data mining), strojové učení (machine learning) či rozpoznávání obrazů (pattern recognition), přičemž se nejedná o obraz ve smyslu výtvarného díla či obraz mozku apod., ale o matematický popis vlastností objektu či subjektu, který chceme hodnotit, prostřednictvím vektoru, grafu či jiného matematického vyjádření.

Stejně jako se vyskytuje nejednotnost v terminologii týkající se klasifikace dat, je i nejednotnost v dělení klasifikačních metod. Ty lze třídit do kategorií například podle:

  • reprezentace vstupních dat,
  • jednoznačnosti zařazení do skupin,
  • typů klasifikačních a učících algoritmů,
  • způsobu učení,
  • principu klasifikace.

V následujících podkapitolkách si představíme jednotlivé způsoby dělení klasifikačních metod, přičemž dále v textu budeme vycházet z kategorizace podle principu klasifikace.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity