Analýza a hodnocení biologických datStatistické modelování Ověřování předpokladů v klasickém modelu lineární regrese Multikolinearita Zlepšování podmíněnosti matice X'X

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat | Statistické modelování |

Průzkumová analýza jednorozměrných dat |

Výstupy z výukové jednotky | Motivace | Funkcionální charakteristiky datového souboru |

Bodové rozložení četností | Intervalové rozložení četností |

Číselné charakteristiky datového souboru |

Znaky nominálního typu | Znaky ordinálního typu | Znaky intervalového a poměrového typu |

Diagnostické grafy |

Úlohy k procvicení |

Základní pojmy matematické statistiky |

Vztah mezi testy a intervalovými odhady | Testy o parametrech normálního rozdělení, testy založené na centrální limitní větě |

Úlohy k procvičení |

Základy regresní a korelační analýzy |

Výstupy z výukové jednotky | Motivace | Optimální volba predikční funkce g | Analýza závislosti |

Koeficient mnohonásobné korelace | Parciální korelační koeficient |

Úlohy k procvičení |

Lineární regresní model |

Ověřování předpokladů v klasickém modelu lineární regrese |

Výstupy z výukové jednotky | Motivace | Ověřování normality dat |

Grafické posouzení | Kolmogorovův - Smirnovův test | Shapirův - Wilkův test normality | Testy dobré shody |

Autokorelace |

Detekce autokorelace | Odhad parametru θ | Odstranění autokorelace 1. řádu |

Multikolinearita |

Důsledky multikolinearity | Detekce multikolinearity | Odstranění multikolinearity | Zlepšování podmíněnosti matice X'X |

Úlohy k procvičení |

Analýza rozptylu |

Výstupy z výukové jednotky | Motivace |

Označení |

Zobecněné lineární modely |

Výstupy z výukové jednotky | Motivace | Základní pojmy a definice |

Maximálně věrohodné odhady | Exponenciální třída rozdělení pravděpodobností |

Definice jednorozměrného GLM |

Omezení klasického lineárního regresního modelu | Definice jednorozměrného GLM |

Odhady neznámých parametrů v GLM |

Maximálně věrohodné odhady | Newtonova - Raphsonova metoda | Metoda skórování |

Testování hypotéz v GLM modelech | Ověřování vhodnosti modelu |

Minimální, maximální model a submodely | Deviace | Analýza reziduí |

Tabulky rozdělení exponenciálního typu |

Tabulka rozdělení exponenciálního typu | Tabulka různých spojovacích funkcí |

Úlohy k procvičení |

Konkrétní GLM modely |

Výstupy z výukové jednotky | Motivace | Modely pro alternativní a binomická data |

Modely dávka - odpověď | Logistická regrese |

Modely pro poissonovská data |

Modelování binomických dat pomocí poissonovského modelu |

Problematika příliš velkého nebo příliš malého rozptylu | Modely pro multinomická data |

Kontingenční tabulky | Log-lineární modely |

Úlohy k procvičení |

Analýza závislosti dvou veličin |

Výstupy z výukové jednotky | Motivace | Testování nezávislosti nominálních veličin |

Čtyřpolní tabulky |

Testování nezávislosti ordinálních veličin | Testování nezávislosti intervalových či poměrových veličin |

Pearsonův koeficient korelace | Koeficient korelace dvourozměrného normálního rozdělení | Porovnání koeficientu korelace s danou konstantou | Porovnání dvou koeficientů korelace | Interval spolehlivosti pro koeficient korelace |

Úlohy k procvičení |

Literatura |

Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Zlepšování podmíněnosti matice X'X

Často se v praxi stává, že matice je špatně podmíněná a přesto nemusí být přítomna multikolinearita v modelu. Může to být například způsobeno příliš rozdílnými hodnotami kovariátů. Uveďme některé obecné principy na zlepšení podmíněnosti matice

Model standardizovaných proměnných. Místo původních proměnných a pracujeme s proměnnými ve tvaru

kde a jsou směrodatné odchylky jednotlivých proměnných. Standardizací vysvětlujících proměnných dostáváme při použití metody nejmenších čtverců místo matice korelační matici Vektor obsahuje jednoduché korelační koeficienty Standardizací proměnných se zmenšují zaokrouhlovací chyby a zlepšují se možnosti hodnocení individuálního vlivu proměnných pomocí regresních parametrů.

Model v kanonickém tvaru. Místo modelu ve tvaru

pracujeme s modelem

kde matice vektor a je matice standardizovaných vlastních vektorů odpovídajících vlastním číslům matice Odhady parametrů v kanonickém tvaru:

kde je diagonální matice s vlastními čísly matice Kovarianční matice odhadů ukazuje, že i v tomto případě jsou odhady nezávislé. Residuální součet čtverců se transformací nemění.

Hřebenová regrese (ridge regression) - nebudeme podrobně popisovat tuto metodu, více informací lze najít např. v [8]. Pro praktickou aplikaci této metody lze v jazyce použít proceduru lm.ridge z balíku MASS.

Příklad 4.6. V souboru „vydaje.Rdata“ jsou uložena data o 20 náhodně vybraných domácnostech. Sloupce proměnné „domacnosti“ obsahují postupně tyto údaje: výdaje za potraviny a nápoje (), počet členů domácnosti (), počet dětí (), průměrný věk výdělečně činných () a příjem domácnosti (). Metodou postupné regrese zkonstruujte model s nejlepší podmíněností regresorů.

Řešení. Uvažujme nejdřív model se všemi regresory. Spočtěme nejprve pro ilustraci determinant Také hodnoty VIF jsou pro první dva regresory vysoké:

Testujeme-li hypotézu hodnota testové statistiky

výrazně převyšuje kritickou hodnotu Hypotézu tedy na hladině významnosti zamítáme.

Pro identifikaci proměnných způsobujících multikolinearitu můžeme spočítat dílčí statistiky

které porovnáme s kritickou hodnotou

Metodou postupné regrese sestavíme model:

Spočteme korelační koeficienty Vybereme regresor neboť jeho korelace je v absolutní hodnotě největší.

Sestavíme model Vypočteme hodnotu statistiky Tato hodnota je větší než takže regresor ponecháme v modelu.

Spočteme parciální korelační koeficienty Vybereme regresor jehož parciální korelační koeficient je v absolutní hodnotě největší.

Sestavíme model Vypočteme hodnotu statistiky Tato hodnota je větší než tedy ponecháme regresor v modelu.

Spočteme parciální korelační koeficienty Vybereme regresor jehož parciální korelační koeficient je v absolutní hodnotě největší.

Sestavíme model Vypočteme hodnotu statistiky Tato hodnota je menší než a tedy regresor již nezahrneme do modelu.

Výsledný model je tedy tvaru

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity