Analýza a hodnocení biologických datRegresní modelování Modelovací strategie a ověření předpokladů modelu Modelovací strategie Stavění lineárního prediktoru

Opakování základů biostatistiky |

Lineární regresní model |

Výstupy z výukové jednotky | Motivace | Jak definujeme lineární regresní model? |

Předpoklady regresních modelů | Prediktory různých datových typů |

Konstanta | Spojitý prediktor | Kategoriální prediktor |

Příklady základních biostatistických modelů |

T-test | Analýza rozptylu |

Řešený praktický příklad: závislost koncentrace vitamínu na BMI | Problémy k řešení | Literatura |

Praktické otázky vícenásobné lineární regrese |

Výstupy z výukové jednotky | Interakce proměnných |

Interakce kategoriální a spojité proměnné | Interakce dvou kategoriálních proměnných |

Multikolinearita | Chybějící data |

Možnosti zpracování souboru s chybějícími daty |

Problémy k řešení | Literatura |

Modelovací strategie a ověření předpokladů modelu |

Problémy k řešení | Výstupy z výukové jednotky | Kauzalita |

Zavádějící faktor | Modelové diagramy, znázornění mediátoru |

Modelovací strategie |

Obecně | Stavění lineárního prediktoru |

Ověření předpokladů modelu |

Hledání zvláštních pozorování: odlehlá nebo vlivná |

Řešený praktický příklad: Spotřeba automobilů | Literatura |

Logistický regresní model a jiné zobecněné lineární modely |

Definice logistického regresního modelu | Interpretace koeficientů logistického regresního modelu | Ověření správnosti logistického regresního modelu | Řešený praktický příklad: Rizikové faktory srdeční choroby |

Analýza deviance | Poissonův regresní model |

Definice Poissonova regresního modelu | Interpretace koeficientů Poissonova regresního modelu | Ověření správnosti Poissonova regresního modelu |

Nadměrný rozptyl – overdispersion | Problémy k řešení | Literatura |

Statistické hodnocení biodiverzity |

Stavění lineárního prediktoru

Vytvoření vhodného lineárního regresního modelu však nezahrnuje pouze nalezení proměnných – vedle toho je nezbytné je do regresní rovnice uvést ve správném tvaru. Jednoduchá je situace u binárních prediktorů, které se do matice plánu dají uvést jediným způsobem (pokud neuvažujeme interakce). U kategoriálních prediktorů s více možnými hodnotami může stát za úvahu sloučení některých kategorií, pokud jsou málo četné.

Složitější je samozřejmě situace u spojitých prediktorů, které lze do lineárního prediktoru vložit nepřeberným množstvím způsobů (vztahy mezi spojitým prediktorem a výsledkem mohou mít mnoho různých tvarů). Pomoci nám může opět studium literatury, kdy vztah může být známý a vysvětlený. Častěji jsme však odkázáni na samotná data, pomoci nám pak může pečlivé studium vztahů mezi prediktorem a výsledkem na x-y grafu (marginální vztah, srov. s analýzou reziduí, která vede ke studiu vztahu podmíněného ostatními prediktory).

Pečlivé provedení tohoto kroku nám často ukáže nezbytnost transformace spojitého prediktoru před vložením do matice plánu, protože předpoklad o linearitě není splněn (přírůstek prediktoru o jednotku nevede ke konstantnímu nárůstu hodnoty výsledku). Jednoduchým, ale často prospěšným řešením je kategorizace takového prediktoru, která umožní popisovat vztah nelineárně, jako obvykle ale při kategorizaci přicházíme o část potenciálně užitečné informace. Kategorizace může být mezistupněm pro zavedení komplexnější transformace: užitečné jsou často transformace logaritmické, odmocninové, reciproční (převrácená hodnota) nebo exponenciální.

Musíme si však dát pozor na změnu interpretace regresních koeficientů po provedení transformace. Pokud provedeme logaritmickou transformaci (desítkovým logaritmem) výsledku, pak jednotková změna prediktoru vede ke změně výsledku -krát (koeficient má tedy nyní nikoliv aditivní (nepřičítáme hodnotu koeficientu), ale multiplikativní (násobíme) interpretaci). Pokud transformujeme prediktor i výsledek, pak nárůst hodnoty prediktoru např. o 50 % vede ke změně výsledku -krát a podobně.

Některé transformace nevylepší model, ale pomáhají interpretaci regresních koeficientů. Často se využívá přecentrování (recentering) nebo přeškálování (rescaling). Přecentrování znamená, že změníme interpretaci absolutního členu přičtením konstanty k hodnotám prediktoru. Vzpomeňte si na úvodní regresní rovnici:

koncentrace vitaminu D = 111,1 – 2,4·BMI

Nepraktičnost takto odhadnutých koeficientů je v tom, že číslo 111,1 představuje predikovanou hodnotu koncentrace vitaminu D pro ženu, jejíž BMI je rovno 0 (což je samozřejmě hloupá představa). Pokud však odečteme od pozorovaných hodnot BMI hodnotu mediánu BMI v našem souboru (přibližně 26):

koncentrace vitaminu D = 48,9 – 2,4·(BMI – 26)

Takto odhadnutý absolutní člen (48,9) odpovídá očekávané hodnotě koncentrace vitaminu D pro typickou ženu (s BMI rovnou mediánu BMI ve sledovaném souboru). Přeškálování můžeme využít, pokud jsou hodnoty koeficientů – směrnic, příliš nízké. Pokud například zjistíme, že hodnota koncentrace vitaminu D se s jedním rokem věku ženy mění jen nepatrně, může být praktičtější interpretovat změnu v měřítku celých desetiletí (původní prediktor – věk v letech – vydělíme 10).

Zbývá uvést ukázku možného praktického „receptu“ na modelování (který je samozřejmě vhodné brát trochu s rezervou, neboť různí autoři se ve svých doporučeních mohou lišit):

dejte do modelu s klíčovými prediktory ty diskutabilní jeden po druhém
- zjistěte vliv na výsledek (je prediktor významný? dává směr účinku smysl?)
- prozkoumejte změny vlivu (velikosti koeficientu) zájmové proměnné (klíčové expozice nebo ošetření, to které je součástí naší praktické hypotézy) na výsledek, tak můžeme odhalit zavádějící faktor
- nechejte v modelu zájmovou proměnnou (nebo několik zájmových proměnných), známé prediktory a další identifikované význačné prediktory
pak můžete přistoupit i ke zjednodušení modelu
- na základě statistické významnosti odhadnutého koeficientu, velmi nevýznamné proměnné ( hodnota značně přesahující 0,05) lze z modelu vyloučit
- při vylučování však buďte opatrní, protože nevýznamná p-hodnota může být jen náhodným pozorováním a prediktor může ve skutečnosti výsledek ovlivňovat
- kompromisem může být vylučovat pouze ty proměnné, jejichž vyloučení neovlivní hodnoty koeficientů u ostatních prediktorů
nezapomínejte průběžně kontrolovat, zda navržený model splňuje předpoklady, viz dále

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity