Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Klasifikace Hodnocení úspěšnosti klasifikace Predikční testování externí validací

Logo Matematická biologie

Predikční testování externí validací

Při predikčním testování externí validací (hold-out) je část dat „odložena stranou“ pro testování (zpravidla jedna třetina dat) a zbývající část dat (zpravidla dvě třetiny dat) je použita na natrénování klasifikátoru. Výhodou je nezávislá testovací a trénovací sada, ve které se subjekty neopakují, nevýhodou je však méně dat pro trénování i testování. Další nevýhodou je i skutečnost, že výsledek klasifikace je velmi závislý na výběru trénovacích dat. Z toho důvodu byly vytvořeny různé modifikace tohoto přístupu. Například je možné použít část dat (obvykle polovinu) pro trénování a zbytek (polovinu) pro testování, následně přehodit testovací a trénovací sadu a výsledky těchto dvou klasifikací zprůměrovat. Nevýhodou však je, že při malých souborech může být polovina dat pro trénování příliš málo. Proto se v praxi častěji používá jiná modifikace, kdy se r-krát náhodně soubor rozdělí na trénovací a testovací sadu (většinou se použijí dvě třetiny pro trénování a třetina pro testování) a získaných r výsledků klasifikací následně zprůměrujeme. Výhodou je poměrně přesný odhad úspěšnosti klasifikace a použití poměrně velké části subjektů na trénování, nevýhodami jsou však velká časová náročnost a překryv trénovacích a testovacích sad (viz Obr. 1).

Obr. 1: Rozdělení datového souboru na trénovací a testovací sady při predikčním testování externí validací s r opakováními (iteracemi).

 
vytvořil Institut biostatistiky a analýz Masarykovy univerzity | | zpětné odkazy | validní XHTML 1.0 Strict