Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Klasifikace Hodnocení úspěšnosti klasifikace Obecné poznámky k rozdělení souboru na trénovací a testovací data

Logo Matematická biologie

Obecné poznámky k rozdělení souboru na trénovací a testovací data

Obecným problémem klasifikace při dělení souboru na testovací a trénovací sadu pomocí všech zmíněných metod je získání špatných nebo zavádějících výsledků, pokud jsou skupiny subjektů velmi početně nevyrovnané. Nejmenší problémy nastávají při klasifikaci pomocí resubstituce (již ale víme, že resubstituce by se neměla používat, protože nadhodnocuje výsledky klasifikace) a „odlož-jeden-mimo“ křížové validace, kde nevyrovnanost skupin může způsobit „jen“ situaci, kdy klasifikátor bude všechny subjekty zařazovat pouze do početnější skupiny (celková správnost v tomto případě bude poměrně vysoká, senzitivita však bude 0% a specificita 100% nebo obráceně). V případě ostatních variant rozdělení souboru na trénovací a testovací sadu se může kromě již zmíněné situace rovněž stát, že při početně nevyrovnaných skupinách budou v trénovací sadě pouze subjekty z jedné skupiny, což zpravidla způsobí, že se klasifikace vůbec neprovede a statistický software skončí s chybou. Řešením v případě početně nevyrovnaných skupin je vytvoření podvýběru početnější skupiny tak, aby podvýběr obsahoval stejný počet subjektů jako méně početná skupina, a provést křížovou validaci (nebo i náhodný výběr s opakováním, případně predikční testování externí validací). Je dobré tento postup provést několikrát (např. desetkrát) pro různé náhodné podvýběry početnějšího souboru a výsledky zprůměrovat. Jinou možností zajištění, aby v testovacích sadách byl dostatek pacientů i kontrol, který se však zpravidla používá jen při křížové validaci, přestože by ho bylo možné použít i při predikční testování externí validací, je rozdělení subjektů do podskupin tak, aby byl zachován stejný podíl subjektů z jedné a druhé skupiny jako byl v původním souboru. Například když je v původním souboru celkem 100 lidí, z nichž je 70 kontrolních subjektů (70%) a 30 pacientů (30%), a při 10-násobné křížové validaci rozdělíme soubor do 10 skupin po 10 lidech, bude každá skupina obsahovat 7 kontrolních subjektů (7 z 10, tzn. 70%) a 3 pacienty (3 z 10, tzn. 30%).

Na závěr kapitolky o rozdělení datové sady na trénovací a testovací je nezbytné zmínit jedno upozornění. Pokud na našich datech provádíme redukci nebo i předzpracování, při němž se používá informace i z ostatních subjektů (nejen z daného subjektu či objektu, který se právě redukuje či předzpracovává), je nutno soubor rozdělit na trénovací a testovací data ještě před redukcí resp. předzpracováním dat, jinak dostaneme nadhodnocené výsledky klasifikace. Například pokud před klasifikací provádíme redukci dat pomocí analýzy hlavních komponent, je potřebné vypočítat vlastní vektory pouze na trénovací sadě, ne na celém datovém souboru.

 
vytvořil Institut biostatistiky a analýz Masarykovy univerzity | | zpětné odkazy | validní XHTML 1.0 Strict