Analýza a hodnocení biologických datStatistické modelování Konkrétní GLM modely Modely pro alternativní a binomická data

Umělá inteligence | Vícerozměrné metody pro analýzu a klasifikaci dat | Statistické modelování |

Průzkumová analýza jednorozměrných dat |

Výstupy z výukové jednotky | Motivace | Funkcionální charakteristiky datového souboru |

Bodové rozložení četností | Intervalové rozložení četností |

Číselné charakteristiky datového souboru |

Znaky nominálního typu | Znaky ordinálního typu | Znaky intervalového a poměrového typu |

Diagnostické grafy |

Úlohy k procvicení |

Základní pojmy matematické statistiky |

Vztah mezi testy a intervalovými odhady | Testy o parametrech normálního rozdělení, testy založené na centrální limitní větě |

Úlohy k procvičení |

Základy regresní a korelační analýzy |

Výstupy z výukové jednotky | Motivace | Optimální volba predikční funkce g | Analýza závislosti |

Koeficient mnohonásobné korelace | Parciální korelační koeficient |

Úlohy k procvičení |

Lineární regresní model |

Ověřování předpokladů v klasickém modelu lineární regrese |

Výstupy z výukové jednotky | Motivace | Ověřování normality dat |

Grafické posouzení | Kolmogorovův - Smirnovův test | Shapirův - Wilkův test normality | Testy dobré shody |

Autokorelace |

Detekce autokorelace | Odhad parametru θ | Odstranění autokorelace 1. řádu |

Multikolinearita |

Důsledky multikolinearity | Detekce multikolinearity | Odstranění multikolinearity | Zlepšování podmíněnosti matice X'X |

Úlohy k procvičení |

Analýza rozptylu |

Výstupy z výukové jednotky | Motivace |

Označení |

Zobecněné lineární modely |

Výstupy z výukové jednotky | Motivace | Základní pojmy a definice |

Maximálně věrohodné odhady | Exponenciální třída rozdělení pravděpodobností |

Definice jednorozměrného GLM |

Omezení klasického lineárního regresního modelu | Definice jednorozměrného GLM |

Odhady neznámých parametrů v GLM |

Maximálně věrohodné odhady | Newtonova - Raphsonova metoda | Metoda skórování |

Testování hypotéz v GLM modelech | Ověřování vhodnosti modelu |

Minimální, maximální model a submodely | Deviace | Analýza reziduí |

Tabulky rozdělení exponenciálního typu |

Tabulka rozdělení exponenciálního typu | Tabulka různých spojovacích funkcí |

Úlohy k procvičení |

Konkrétní GLM modely |

Výstupy z výukové jednotky | Motivace | Modely pro alternativní a binomická data |

Modely dávka - odpověď | Logistická regrese |

Modely pro poissonovská data |

Modelování binomických dat pomocí poissonovského modelu |

Problematika příliš velkého nebo příliš malého rozptylu | Modely pro multinomická data |

Kontingenční tabulky | Log-lineární modely |

Úlohy k procvičení |

Analýza závislosti dvou veličin |

Výstupy z výukové jednotky | Motivace | Testování nezávislosti nominálních veličin |

Čtyřpolní tabulky |

Testování nezávislosti ordinálních veličin | Testování nezávislosti intervalových či poměrových veličin |

Pearsonův koeficient korelace | Koeficient korelace dvourozměrného normálního rozdělení | Porovnání koeficientu korelace s danou konstantou | Porovnání dvou koeficientů korelace | Interval spolehlivosti pro koeficient korelace |

Úlohy k procvičení |

Literatura |

Teorie a praxe jádrového vyhlazování | Regresní modelování | Statistické hodnocení biodiverzity |

Modely pro alternativní a binomická data

Předpokládejme, že sledovaná náhodná veličina nabývá pouze dvou hodnot a tj. má alternativní rozdělení:

Předpokládejme, že náhodná veličina závisí na veličinách tzv. kovariáty. Data můžeme mít zadána různým způsobem:

jednotlivá pozorování

skupinově, tj. pro každou kombinaci kovariát známe absolutní četnosti úspěchů a celkový počet pokusů tedy máme k dispozici binomická data

kde

a data můžeme zapsat formou tabulky

skupinově, tj. pro každou kombinaci kovariát máme relativní četnost úspěchů a celkový počet pokusů

kde

Data lze zapsat do tabulky

pro nominální či ordinální kovariáty můžeme data psát do tzv. kontingenčních tabulek. Uvažujme jednoduchý příklad:

V dalším se soustřeďme na relativní četnosti úspěchů

Hlavním úkolem statistické analýzy je pak nalézt vztah mezi (tj. i ) a tj. funkci

Protože chceme použít GLM modely, modelujeme pravděpodobnosti pomocí linkovacích funkcí

Nejjednodušším modelem je lineární model

Avšak tento model má řadu nevýhod, především je třeba zajistit, aby nabývala hodnot mezi a tedy je třeba přidat nějaké dodatečné podmínky. Proto, abychom tuto podmínku dodrželi, využijeme nějakou distribuční funkci

s odpovídající hustotou která se v tomto případě nazývá toleranční funkce (toleranční distribuce). Nyní si ukážeme několik modelů, které využívají různé toleranční distribuce.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity