Analýza a hodnocení biologických datStatistické modelování Zobecněné lineární modely Definice jednorozměrného GLM Omezení klasického lineárního regresního modelu

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat | Statistické modelování |

Průzkumová analýza jednorozměrných dat |

Výstupy z výukové jednotky | Motivace | Funkcionální charakteristiky datového souboru |

Bodové rozložení četností | Intervalové rozložení četností |

Číselné charakteristiky datového souboru |

Znaky nominálního typu | Znaky ordinálního typu | Znaky intervalového a poměrového typu |

Diagnostické grafy |

Úlohy k procvicení |

Základní pojmy matematické statistiky |

Vztah mezi testy a intervalovými odhady | Testy o parametrech normálního rozdělení, testy založené na centrální limitní větě |

Úlohy k procvičení |

Základy regresní a korelační analýzy |

Výstupy z výukové jednotky | Motivace | Optimální volba predikční funkce g | Analýza závislosti |

Koeficient mnohonásobné korelace | Parciální korelační koeficient |

Úlohy k procvičení |

Lineární regresní model |

Ověřování předpokladů v klasickém modelu lineární regrese |

Výstupy z výukové jednotky | Motivace | Ověřování normality dat |

Grafické posouzení | Kolmogorovův - Smirnovův test | Shapirův - Wilkův test normality | Testy dobré shody |

Autokorelace |

Detekce autokorelace | Odhad parametru θ | Odstranění autokorelace 1. řádu |

Multikolinearita |

Důsledky multikolinearity | Detekce multikolinearity | Odstranění multikolinearity | Zlepšování podmíněnosti matice X'X |

Úlohy k procvičení |

Analýza rozptylu |

Výstupy z výukové jednotky | Motivace |

Označení |

Zobecněné lineární modely |

Výstupy z výukové jednotky | Motivace | Základní pojmy a definice |

Maximálně věrohodné odhady | Exponenciální třída rozdělení pravděpodobností |

Definice jednorozměrného GLM |

Omezení klasického lineárního regresního modelu | Definice jednorozměrného GLM |

Odhady neznámých parametrů v GLM |

Maximálně věrohodné odhady | Newtonova - Raphsonova metoda | Metoda skórování |

Testování hypotéz v GLM modelech | Ověřování vhodnosti modelu |

Minimální, maximální model a submodely | Deviace | Analýza reziduí |

Tabulky rozdělení exponenciálního typu |

Tabulka rozdělení exponenciálního typu | Tabulka různých spojovacích funkcí |

Úlohy k procvičení |

Konkrétní GLM modely |

Výstupy z výukové jednotky | Motivace | Modely pro alternativní a binomická data |

Modely dávka - odpověď | Logistická regrese |

Modely pro poissonovská data |

Modelování binomických dat pomocí poissonovského modelu |

Problematika příliš velkého nebo příliš malého rozptylu | Modely pro multinomická data |

Kontingenční tabulky | Log-lineární modely |

Úlohy k procvičení |

Analýza závislosti dvou veličin |

Výstupy z výukové jednotky | Motivace | Testování nezávislosti nominálních veličin |

Čtyřpolní tabulky |

Testování nezávislosti ordinálních veličin | Testování nezávislosti intervalových či poměrových veličin |

Pearsonův koeficient korelace | Koeficient korelace dvourozměrného normálního rozdělení | Porovnání koeficientu korelace s danou konstantou | Porovnání dvou koeficientů korelace | Interval spolehlivosti pro koeficient korelace |

Úlohy k procvičení |

Literatura |

Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Omezení klasického lineárního regresního modelu

Mějme klasický lineární regresní model plné hodnosti

kde		je vektor závisle proměnných,
		je matice plánu,
		je vektor chyb, přičemž

Když se podíváme na tento model blíže, zjistíme, že se skládá ze dvou částí:

Systematická (signální) část vyjadřuje lineární vztah pro střední hodnotu a neznámé parametry tj.

Tato část je obvykle cílem zkoumání, snažíme se pomocí ní maximálně možně vysvětlit chování náhodné veličiny a zjistit skrze parametry velikost a znaménko závislosti na vysvětlujících veličinách

V reálném světě má mnoho procesů jiný, než lineární vztah závislosti. Např. v ekonomii se ukazuje, že mnoho vztahů má logaritmickou závislost, k vysvětlení procesů v přírodních vědách se užívají reciproké, mocninné i další vztahy. Vysvětlovaná veličina popisující pravděpodobnost přežití člověka, v případě určité nemoci a určitého způsobu léčby, může z definice pravděpodobnosti nabývat hodnot pouze z intervalu což by v případě klasického lineárního modelu bylo možné zajistit jen za přijetí omezení na estimátor

Náhodná část je reprezentovaná náhodnými chybami které shrnují v sobě všechny ostatní vlivy, působící na kromě již uvedených v systematické části. Rozdělení náhodných veličin je závislé na rozdělení a má tvar

kde jsou nezávislé. Právě normalita chyb je často nesplněným předpokladem klasického lineárního regresního modelu. Připomeňme, že normalita se vyznačuje nezávislosti střední hodnoty a rozptylu. Typicky např. u ekonomických veličin s rostoucí střední hodnotou obvykle roste rozptyl náhodné veličiny, přičemž náhodné chyby mají v těchto případech často nesymetrická, kladně sešikmená rozdělení.

Shrneme-li předchozí, můžeme říci, že klasický lineární regresní model je sice velmi důležitým stochastickým modelem, avšak má celou řadu omezení:

Je omezen pouze na třídu normálních rozdělení: kde tvoří náhodný výběr.
Předpokládá striktní rovnost mezi střední hodnotou náhodné veličiny a lineární kombinací prediktorů: kde

	je vektor prediktorů a
	je vektor neznámých parametrů.

Je však možné provést zobecnění tohoto klasického lineárního modelu dvěma směry:

(1)	Zobecnění na nenormální rozdělení, a to na tzv. třídu exponenciálních rozdělení.
(2)	Zobecnění na nelineární funkce, které spojují neznámé střední hodnoty výchozího rozdělení náhodné veličiny s prediktivními proměnnými.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity