Analýza a hodnocení biologických datTeorie a praxe jádrového vyhlazování Jádrové odhady regresní funkce Statistické vlastnosti jádrových odhadů

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat | Statistické modelování | Teorie a praxe jádrového vyhlazování |

Seznam použitého značení |

Symbolika O, o |

Jádrové funkce a jejich vlastnosti |

Výstupy z výukové jednotky | Základní pojmy a definice |

Jádra s minimálním rozptylem | Optimální jádra |

Shrnutí | Dodatek | Úlohy k procvičení |

Jádrové odhady regresní funkce |

Metoda křížového ověřování |

Jádrové odhady hustoty |

Výstupy z výukové jednotky | Motivace | Základní typy neparametrických odhadů | Statistické vlastnosti jádrových odhadů hustoty |

Odhad derivace hustoty |

Volba jádra | Volba vyhlazovacího parametru |

Metoda referenční hustoty | Metoda maximálního vyhlazení | Metoda křížového ověřování | Iterační metoda |

Automatická procedura | Aplikace na reálná data | Shrnutí | Úlohy k procvičení |

Jádrové odhady distribuční funkce |

Metody křížového ověřování | Princip maximálního vyhlazení | Plug-in metoda |

Aplikace na reálná data | Shrnutí | Úlohy k procvičení |

Jádrové odhady dvourozměrných hustot |

Metoda referenční hustoty | Metoda křížového ověřování |

Aplikace na reálná data | Shrnutí | Dodatek | Úlohy k procvičení |

Datové soubory |

Přílohy | Literatura |

Regresní modelování | Statistické hodnocení biodiverzity |

Statistické vlastnosti jádrových odhadů

Kvalitu jádrového odhadu lze lokálně popsat pomocí střední kvadratické chyby odhadu v bodě která je obecně dána vztahem

Upravíme tento vztah

		(5)
		(5)

což znamená, že střední kvadratická chyba může být vyjádřena jako součet rozptylu odhadu a čtverce vychýlení Tento rozklad rozptyl-vychýlení usnadňuje analýzu vlastností odhadu.

Všechny uvedené jádrové odhady regresní funkce jsou asymptoticky ekvivalentní (viz např. [8, 14]). Z tohoto důvodu budeme dále podrobněji zabývat Priestleyovými-Chaovými odhady, které budeme psát bez uvedení označení , tedy: a

Připomeňme, že pro Priestleyovy-Chaovy odhady je váhová funkce tvaru

Pro další výpočty budeme předpokládat:

(i)	Jádrová funkce je sudou funkcí na intervalu [-1,1],
(ii)	vyhlazovací parametr je nenáhodnou posloupností kladných čísel splňující a pro
(iii)	bod v němž počítáme odhad, splňuje nerovnost pro všechna kde je pevné,
(iv)
(v)

Je zřejmé, že pro platí (jedná se o přibližný výpočet integrálu - viz Dodatek této kapitoly a Symbolika a )

		(6)

Nechť odtud a tedy s využitím Taylorova rozvoje

		(7)
		(7)

Podle výše uvedených předpokladů platí tedy a pro Odtud, s využitím faktu, že nosičem funkce je interval [-1,1], plyne

Celkem dostaneme

Podobně pro rozptyl platí




z vlastností Jádrové odhady regresní funkce (2) plyne pro tedy

Zde jsme opět použili přibližného výpočtu integrálu. Opět s využitím substituce a vztahu můžeme pro psát

Tímto jsme dokázali následující větu o tvaru střední kvadratické chyby.

Věta 3.1. Nechť jsou splněny předpoklady (i)-(iii), pak střední kvadratická chyba nabývá tvaru

(8)

Chyba dává pouze lokální pohled na chybu odhadu, proto se častěji používá globální tvar chyby - - asymptotická střední integrální kvadratická chyba. je součástí střední integrální kvadratické chyby a vztah mezi chybami a je následující

je tvaru

(9)

kde a značí asymptotický tvar rozptylu (asymptotic integrated variance) a asymptotický tvar druhé mocniny vychýlení (asymptotic integrated square bias).

Obr. 9. AMISE (růžová, plná) jako součet rozptylu AIV (červená, plná) a vychýlení AISB (modrá, čárkovaná)

Na obrázku je znázorněn průběh a a také výsledné chyby Je vidět, že rozptyl nabývá velkých hodnot pro malé, ale klesá. Pro velké je tomu naopak. Volba vyhlazovacího parametru je zřejmě klíčovým problémem jádrového vyhlazování.

Naším cílem je minimalizovat tzn. najít takovou hodnotu vyhlazovacího parametru pro kterou asymptotická střední integrální kvadratická chyba nabývá minimální hodnoty, a tedy odhad bude nejlepší ve smyslu . Užijeme metody matematické analýzy a spočítáme derivaci

položíme ji rovnu nule a vyjádříme

(10)

Poznámka 3.2. Tento výpočet vede k nalezení minima protože platí

Vztah Jádrové odhady regresní funkce (10) má pouze teoretický charakter, protože hodnota závisí na neznámých veličinách a a tedy není užitečná pro praktické účely. Abychom odhadli optimální hodnotu vyhlazovacího parametru, musíme použít metody, které jsou založeny na datech (data-driven methods). Nejznámější z těchto metod bude uvedena v dalším odstavci.

Vztah Jádrové odhady regresní funkce (10) pro optimální šířku vyhlazovacího okna ukazuje, že řád konvergence optimální šířky vyhlazovacího okna závisí na řádu jádra tedy pro jádra řádu je Dosadíme-li Jádrové odhady regresní funkce (10) do vztahu Jádrové odhady regresní funkce (9) pro dostaneme

		(11)

tj.

Poznámka 3.3. Jestliže jádro náleží do třídy pak je tvaru

(12)

a pro optimální vyhlazovací parametr platí

(13)

kde podrobněji např. [7].

Nyní uvedeme důležité lemma, které ukazuje zajímavou vlastnost vyhlazovacího parametru.

Lemma 3.4. Pro platí

Důkaz. Viz Cvičení 6.

Lze ukázat, že pro jádra je To znamená, že s rostoucím se zvyšuje asymptotická rychlost konvergence. Ale není zcela jasné, zda tato zvýšená rychlost konvergence vede již k zlepšení pro konečné rozsahy výběrů, neboť ostatní veličiny se rovněž mění s . Nevýhodou jader vyšších řádů je fakt, že pro tato jádra je optimální šířka okna větší, což může mít negativní dopad na hraniční efekty [9]. Na druhé straně, chování jádrových odhadů s jádry vyšších řádů je méně citlivé na volbu šířky okna, není-li určena zcela optimálně, neboť křivka je plošší.

Poznámka 3.5. Vyšetřování kvality odhadu obvykle probíhá za předpokladu, že pracujeme s vnitřními body intervalu [0,1]. V hraničních oblastech, tj. v intervalech je kvalita odhadu ovlivněna negativně skutečností, že jádro zde nesplňuje momentové podmínky Jádrové funkce a jejich vlastnosti 1.1. To je způsobeno tím, že blízko krajních bodů nosič jádra zasahuje do oblasti, kde nejsou žádná data, což zhoršuje odhad - viz nasledující obrázek.

Obr. 10. Hraniční efekt

Hraniční efekty jsou také patrné na obrázcích Jádrové odhady regresní funkce 7a) a Jádrové odhady regresní funkce 10, zejména u pravého okraje intervalu. Problém okrajových efektů lze překonat např. použitím hraničních jader (viz [9]) nebo reflexní metodou (viz [3]).

Příklad 3.6. Uvažujme simulovaná data generovaná regresní funkcí na intervalu s chybami Vypočítejme hodnotu optimálního vyhlazovacího parametru pro odhad s jádrem řádu 2.

Podle vztahu Jádrové odhady regresní funkce (10) potřebujeme spočítat výraz

Výpočet pro

Epanečnikovo jádro:

obdélníkové jádro:

Odhady s optimálním vyhlazovacím parametrem pro soubor o velikosti 50 hodnot jsou na následujícím obrázku. (Data jsou v Datové soubory Tabulka 2.) Vidíme, že odhad s „hladším“ Epanečnikovým jádrem generuje „hladší“ křivku.


a) Epanečnikovo jádro, h_opt,0,2=0,1573	b) Obdélníkové jádro, h_opt,0,2=0,1236
Obr. 11. Odhad regresní funkce z ukázkového příkladu Jádrové odhady regresní funkce 3.6, odhad (červená, plná) a původní funkce (modrá, čárkovaná)

komentář k obsahu

komentář ke struktuře

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity