Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datTeorie a praxe jádrového vyhlazování Jádrové odhady regresní funkce Volba vyhlazovacího parametru Metoda křížového ověřování

Logo Matematická biologie

Metoda křížového ověřování

Jednou z nejrozšířenějších a nejpoužívanějších metod pro určení optimální hodnoty parametru je metoda křížového ověřování (cross-validation method). Tato metoda je založena na odhadu regresní funkce Jádrové odhady regresní funkce (4), v němž vynecháme -té pozorování:

Funkce křížového ověřování je definována takto

(14)

a odhadem optimální hodnoty vyhlazovacího parametru je bod, v němž nastává minimum této funkce, tj.

Hledáme tedy minimum na intervalu jehož tvar plyne ze vztahu Jádrové odhady regresní funkce (13), přičemž jsou konstanty které ovšem neznáme. A proto pro ekvidistantní body plánu byl na základě zkušeností doporučen interval

Poznámka 5.1. Někdy se místo chyby používá průměrná střední kvadratická chyba (average mean square error)

Využívá se zejména v případech, kdy není vhodné použít numerické integrování související s chybou, která se vyskytuje v .

Věta 5.2. Pro střední hodnotu funkce platí

Důkaz. Funkci křížového ověřování lze rozepsat

 

 

 
 

Střední hodnota je rovna součtu tří veličin. Předpokládejme, že pak první ze sčítanců je roven přímo

Dále víme, že a tedy pro druhý sčítanec platí:

Stejně jako pro druhý sčítanec, i pro třetí sčítanec využijeme vlastnosti Jádrové odhady regresní funkce (2):

Tento výsledek znamená, že minimalizace odpovídá minimalizaci  Jestliže tedy předpokládáme, že minimum je blízko minima  pak tato minimalizace dává dobrou volbu vyhlazovacího parametru - viz ilustrace na následujícím obrázku.

 

Obr. 12. Porovnání minima AMSE (modrá, čárkovaná) a minima funkce křížového ověřování CV (červená, plná) pro simulovaná data z ukázkového příkladu

Příklad 5.3. Použijeme metodu křížového ověřování pro nalezení vyhlazovacího parametru pro data z příkladu Jádrové odhady regresní funkce 1.2. Při použití Epanečnikova jádra získáme vyhlazovací parametr  Na následujícím obrázku je zobrazen odhad regresní funkce s tímto parametrem.

 

Obr. 13. Simulovaná data (x) s jádrovým odhadem regresní funkce (hCV =0,1158) (červená, plná) a původní funkcí (modrá, čárkovaná)

Kromě metody křížového ověřování se také pro odhad optimálního vyhlazovacího parametru používají metody založené na (average square error), metody plug-in, metody odvozené z Fourierovy transformace a bootstrapové metody (podrobněji např. [3, 6]).

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity