Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza genomických a proteomických dat Základní schémata statistické analýzy dat Predikce skupin Odhad výkonnosti klasifikátoru

Logo Matematická biologie

Odhad výkonnosti klasifikátoru

Výkonnosti každého klasifikátoru musí být otestována na úplně jiném validačním souboru. Neexistuje-li takový validační soubor z různých důvodů, je nutné odhadnout výkonnost klasifikátoru za použití souboru, na kterém má být klasifikátor vytvořen. Odhad výkonnosti na celém trénovacím souboru je ovšem optimisticky zkreslený.

Základní postup je tedy převzorkováním rozdělit (opakovaně) datový soubor na trénovací a testovací, vytvořit klasifikátor na trénovacím souboru a změřit výkonnost klasifikátoru jen na datech, které nebyly použity pro jeho vytvoření.

Všechny kroky vytvoření klasifikátoru, které závisí na převzorkování a které vedou k finálnímu modelu se opakují identicky na každém rozdělení na trénovací a testovací soubor. Sem patří (např.): normalizace dat, výběr proměnných, trénování klasifikátoru, optimizace parametrů...

Existují různé převzorkovací metody, nejznámější je k-násobná křížová validace (k-fold cross validation) a boostrapping.

Křížová validace má několik různých variant, které si uvedeme pro informaci:

  • Opakovaná k-násobná křížová validace
  • Monte-Carlo křížová validace
  • Leave-one-out křížová validace (n-násobná křížová validace kde n je počet vzorků)

Navíc bez předpokladů o rozložení neexistuje žádný vzorec pro výpočet intervalu spolehlivosti.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity