Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datTeorie a praxe jádrového vyhlazování Jádrové odhady regresní funkce Statistické vlastnosti jádrových odhadů

Logo Matematická biologie

Statistické vlastnosti jádrových odhadů

Kvalitu jádrového odhadu lze lokálně popsat pomocí střední kvadratické chyby odhadu v bodě  která je obecně dána vztahem  

Upravíme tento vztah

(5)
 

což znamená, že střední kvadratická chyba může být vyjádřena jako součet rozptylu odhadu  a čtverce vychýlení Tento rozklad rozptyl-vychýlení usnadňuje analýzu vlastností odhadu.

 

Všechny uvedené jádrové odhady regresní funkce jsou asymptoticky ekvivalentní (viz např. [8, 14]). Z tohoto důvodu budeme dále podrobněji zabývat Priestleyovými-Chaovými odhady, které budeme psát bez uvedení označení , tedy: a

 

Připomeňme, že pro Priestleyovy-Chaovy odhady je váhová funkce tvaru 

Pro další výpočty budeme předpokládat:

(i) Jádrová funkce je sudou funkcí na intervalu [-1,1],
(ii) vyhlazovací parametr je nenáhodnou posloupností kladných čísel splňující  a pro
(iii) bod v němž počítáme odhad, splňuje nerovnost pro všechna  kde je pevné,
(iv)
(v)

Je zřejmé, že pro platí (jedná se o přibližný výpočet integrálu - viz Dodatek této kapitoly a Symbolika  a )

(6)

Nechť odtud a tedy s využitím Taylorova rozvoje

(7)
 

Podle výše uvedených předpokladů platí tedy a pro  Odtud, s využitím faktu, že nosičem funkce je interval [-1,1], plyne

 

Celkem dostaneme

 

Podobně pro rozptyl platí

 

   
     
     

 

z vlastností Jádrové odhady regresní funkce (2) plyne  pro  tedy

 

     
     

Zde jsme opět použili přibližného výpočtu integrálu. Opět s využitím substituce a vztahu můžeme pro psát

 

Tímto jsme dokázali následující větu o tvaru střední kvadratické chyby.

Věta 3.1. Nechť jsou splněny předpoklady (i)-(iii), pak střední kvadratická chyba nabývá tvaru

(8)

Chyba dává pouze lokální pohled na chybu odhadu, proto se častěji používá globální tvar chyby -  - asymptotická střední integrální kvadratická chyba. je součástí střední integrální kvadratické chyby a vztah mezi chybami a je následující

 

je tvaru

(9)

kde a značí asymptotický tvar rozptylu (asymptotic integrated variance) a  asymptotický tvar druhé mocniny vychýlení (asymptotic integrated square bias).

Obr. 9. AMISE (růžová, plná) jako součet rozptylu AIV (červená, plná) a vychýlení AISB (modrá, čárkovaná)

Na obrázku je znázorněn průběh a a také výsledné chyby  Je vidět, že rozptyl nabývá velkých hodnot pro malé, ale  klesá. Pro velké je tomu naopak. Volba vyhlazovacího parametru je zřejmě klíčovým problémem jádrového vyhlazování.

Naším cílem je minimalizovat  tzn. najít takovou hodnotu vyhlazovacího parametru  pro kterou asymptotická střední integrální kvadratická chyba nabývá minimální hodnoty, a tedy odhad bude nejlepší ve smyslu . Užijeme metody matematické analýzy a spočítáme derivaci

položíme ji rovnu nule a vyjádříme 

(10)

 

 

Poznámka 3.2. Tento výpočet vede k nalezení minima  protože platí

Vztah Jádrové odhady regresní funkce (10) má pouze teoretický charakter, protože hodnota závisí na neznámých veličinách a a tedy není užitečná pro praktické účely. Abychom odhadli optimální hodnotu vyhlazovacího parametru, musíme použít metody, které jsou založeny na datech (data-driven methods). Nejznámější z těchto metod bude uvedena v dalším odstavci.

 

Vztah Jádrové odhady regresní funkce (10) pro optimální šířku vyhlazovacího okna ukazuje, že řád konvergence optimální šířky vyhlazovacího okna závisí na řádu jádra tedy pro jádra řádu je  Dosadíme-li Jádrové odhady regresní funkce (10) do vztahu Jádrové odhady regresní funkce (9) pro  dostaneme

 

(11)
 
 
 

tj. 

Poznámka 3.3. Jestliže jádro náleží do třídy pak je tvaru

(12)

a pro optimální vyhlazovací parametr platí

(13)

kde podrobněji např. [7].

 

Nyní uvedeme důležité lemma, které ukazuje zajímavou vlastnost vyhlazovacího parametru.

Lemma 3.4. Pro platí

 

Důkaz. Viz Cvičení 6.

Lze ukázat, že pro jádra je To znamená, že s rostoucím se zvyšuje asymptotická rychlost konvergence. Ale není zcela jasné, zda tato zvýšená rychlost konvergence vede již k zlepšení pro konečné rozsahy výběrů, neboť ostatní veličiny se rovněž mění s . Nevýhodou jader vyšších řádů je fakt, že pro tato jádra je optimální šířka okna větší, což může mít negativní dopad na hraniční efekty [9]. Na druhé straně, chování jádrových odhadů s jádry vyšších řádů je méně citlivé na volbu šířky okna, není-li určena zcela optimálně, neboť křivka je plošší.

 

Poznámka 3.5. Vyšetřování kvality odhadu obvykle probíhá za předpokladu, že pracujeme s vnitřními body intervalu [0,1]. V hraničních oblastech, tj. v intervalech je kvalita odhadu ovlivněna negativně skutečností, že jádro zde nesplňuje momentové podmínky Jádrové funkce a jejich vlastnosti 1.1. To je způsobeno tím, že blízko krajních bodů nosič jádra zasahuje do oblasti, kde nejsou žádná data, což zhoršuje odhad - viz nasledující obrázek.

Obr. 10. Hraniční efekt

 Hraniční efekty jsou také patrné na obrázcích Jádrové odhady regresní funkce 7a) a Jádrové odhady regresní funkce 10, zejména u pravého okraje intervalu. Problém okrajových efektů lze překonat např. použitím hraničních jader (viz [9]) nebo reflexní metodou (viz [3]).

 

Příklad 3.6. Uvažujme simulovaná data generovaná regresní funkcí na intervalu  s chybami  Vypočítejme hodnotu optimálního vyhlazovacího parametru pro odhad s jádrem řádu 2.

Podle vztahu Jádrové odhady regresní funkce (10) potřebujeme spočítat výraz

 
 

Výpočet pro

  • Epanečnikovo jádro:
  • obdélníkové jádro: 

Odhady s optimálním vyhlazovacím parametrem pro soubor o velikosti 50 hodnot jsou na následujícím obrázku. (Data jsou v Datové soubory Tabulka 2.) Vidíme, že odhad s „hladším“ Epanečnikovým jádrem generuje „hladší“ křivku.

 

a) Epanečnikovo jádro, hopt,0,2=0,1573
b) Obdélníkové jádro, hopt,0,2=0,1236
Obr. 11. Odhad regresní funkce z ukázkového příkladu Jádrové odhady regresní funkce 3.6, odhad (červená, plná) a původní funkce (modrá, čárkovaná)

 

komentář k obsahu

komentář ke struktuře

 Odeslání komentáře 

* ... povinné položky
 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity