Analýza a hodnocení biologických datTeorie a praxe jádrového vyhlazování Jádrové odhady regresní funkce Volba vyhlazovacího parametru Metoda křížového ověřování

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat | Statistické modelování | Teorie a praxe jádrového vyhlazování |

Seznam použitého značení |

Symbolika O, o |

Jádrové funkce a jejich vlastnosti |

Výstupy z výukové jednotky | Základní pojmy a definice |

Jádra s minimálním rozptylem | Optimální jádra |

Shrnutí | Dodatek | Úlohy k procvičení |

Jádrové odhady regresní funkce |

Metoda křížového ověřování |

Jádrové odhady hustoty |

Výstupy z výukové jednotky | Motivace | Základní typy neparametrických odhadů | Statistické vlastnosti jádrových odhadů hustoty |

Odhad derivace hustoty |

Volba jádra | Volba vyhlazovacího parametru |

Metoda referenční hustoty | Metoda maximálního vyhlazení | Metoda křížového ověřování | Iterační metoda |

Automatická procedura | Aplikace na reálná data | Shrnutí | Úlohy k procvičení |

Jádrové odhady distribuční funkce |

Metody křížového ověřování | Princip maximálního vyhlazení | Plug-in metoda |

Aplikace na reálná data | Shrnutí | Úlohy k procvičení |

Jádrové odhady dvourozměrných hustot |

Metoda referenční hustoty | Metoda křížového ověřování |

Aplikace na reálná data | Shrnutí | Dodatek | Úlohy k procvičení |

Datové soubory |

Přílohy | Literatura |

Regresní modelování | Statistické hodnocení biodiverzity |

Metoda křížového ověřování

Jednou z nejrozšířenějších a nejpoužívanějších metod pro určení optimální hodnoty parametru je metoda křížového ověřování (cross-validation method). Tato metoda je založena na odhadu regresní funkce Jádrové odhady regresní funkce (4), v němž vynecháme -té pozorování:

Funkce křížového ověřování je definována takto

(14)

a odhadem optimální hodnoty vyhlazovacího parametru je bod, v němž nastává minimum této funkce, tj.

Hledáme tedy minimum na intervalu jehož tvar plyne ze vztahu Jádrové odhady regresní funkce (13), přičemž jsou konstanty které ovšem neznáme. A proto pro ekvidistantní body plánu byl na základě zkušeností doporučen interval

Poznámka 5.1. Někdy se místo chyby používá průměrná střední kvadratická chyba (average mean square error)

Využívá se zejména v případech, kdy není vhodné použít numerické integrování související s chybou, která se vyskytuje v .

Věta 5.2. Pro střední hodnotu funkce platí

Důkaz. Funkci křížového ověřování lze rozepsat

Střední hodnota je rovna součtu tří veličin. Předpokládejme, že pak první ze sčítanců je roven přímo

Dále víme, že a tedy pro druhý sčítanec platí:

Stejně jako pro druhý sčítanec, i pro třetí sčítanec využijeme vlastnosti Jádrové odhady regresní funkce (2):

Tento výsledek znamená, že minimalizace odpovídá minimalizaci Jestliže tedy předpokládáme, že minimum je blízko minima pak tato minimalizace dává dobrou volbu vyhlazovacího parametru - viz ilustrace na následujícím obrázku.

Obr. 12. Porovnání minima AMSE (modrá, čárkovaná) a minima funkce křížového ověřování CV (červená, plná) pro simulovaná data z ukázkového příkladu

Příklad 5.3. Použijeme metodu křížového ověřování pro nalezení vyhlazovacího parametru pro data z příkladu Jádrové odhady regresní funkce 1.2. Při použití Epanečnikova jádra získáme vyhlazovací parametr Na následujícím obrázku je zobrazen odhad regresní funkce s tímto parametrem.

Obr. 13. Simulovaná data (x) s jádrovým odhadem regresní funkce (h_CV =0,1158) (červená, plná) a původní funkcí (modrá, čárkovaná)

Kromě metody křížového ověřování se také pro odhad optimálního vyhlazovacího parametru používají metody založené na (average square error), metody plug-in, metody odvozené z Fourierovy transformace a bootstrapové metody (podrobněji např. [3, 6]).

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity