
Predikční testování externí validací
Při predikčním testování externí validací (hold-out) je část dat „odložena stranou“ pro testování (zpravidla jedna třetina dat) a zbývající část dat (zpravidla dvě třetiny dat) je použita na natrénování klasifikátoru. Výhodou je nezávislá testovací a trénovací sada, ve které se subjekty neopakují, nevýhodou je však méně dat pro trénování i testování. Další nevýhodou je i skutečnost, že výsledek klasifikace je velmi závislý na výběru trénovacích dat. Z toho důvodu byly vytvořeny různé modifikace tohoto přístupu. Například je možné použít část dat (obvykle polovinu) pro trénování a zbytek (polovinu) pro testování, následně přehodit testovací a trénovací sadu a výsledky těchto dvou klasifikací zprůměrovat. Nevýhodou však je, že při malých souborech může být polovina dat pro trénování příliš málo. Proto se v praxi častěji používá jiná modifikace, kdy se r-krát náhodně soubor rozdělí na trénovací a testovací sadu (většinou se použijí dvě třetiny pro trénování a třetina pro testování) a získaných r výsledků klasifikací následně zprůměrujeme. Výhodou je poměrně přesný odhad úspěšnosti klasifikace a použití poměrně velké části subjektů na trénování, nevýhodami jsou však velká časová náročnost a překryv trénovacích a testovacích sad (viz Obr. 1).
