Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datRegresní modelování Modelovací strategie a ověření předpokladů modelu Modelovací strategie Stavění lineárního prediktoru

Logo Matematická biologie

Stavění lineárního prediktoru

Vytvoření vhodného lineárního regresního modelu však nezahrnuje pouze nalezení proměnných – vedle toho je nezbytné je do regresní rovnice uvést ve správném tvaru. Jednoduchá je situace u binárních prediktorů, které se do matice plánu dají uvést jediným způsobem (pokud neuvažujeme interakce). U kategoriálních prediktorů s více možnými hodnotami může stát za úvahu sloučení některých kategorií, pokud jsou málo četné.

Složitější je samozřejmě situace u spojitých prediktorů, které lze do lineárního prediktoru vložit nepřeberným množstvím způsobů (vztahy mezi spojitým prediktorem a výsledkem mohou mít mnoho různých tvarů). Pomoci nám může opět studium literatury, kdy vztah může být známý a vysvětlený. Častěji jsme však odkázáni na samotná data, pomoci nám pak může pečlivé studium vztahů mezi prediktorem a výsledkem na x-y grafu (marginální vztah, srov. s analýzou reziduí, která vede ke studiu vztahu podmíněného ostatními prediktory).

Pečlivé provedení tohoto kroku nám často ukáže nezbytnost transformace spojitého prediktoru před vložením do matice plánu, protože předpoklad o linearitě není splněn (přírůstek prediktoru o jednotku nevede ke konstantnímu nárůstu hodnoty výsledku). Jednoduchým, ale často prospěšným řešením je kategorizace takového prediktoru, která umožní popisovat vztah nelineárně, jako obvykle ale při kategorizaci přicházíme o část potenciálně užitečné informace. Kategorizace může být mezistupněm pro zavedení komplexnější transformace: užitečné jsou často transformace logaritmické, odmocninové, reciproční (převrácená hodnota) nebo exponenciální.

Musíme si však dát pozor na změnu interpretace regresních koeficientů po provedení transformace. Pokud provedeme logaritmickou transformaci (desítkovým logaritmem) výsledku, pak jednotková změna prediktoru vede ke změně výsledku -krát (koeficient má tedy nyní nikoliv aditivní (nepřičítáme hodnotu koeficientu), ale multiplikativní (násobíme) interpretaci). Pokud transformujeme prediktor i výsledek, pak nárůst hodnoty prediktoru např. o 50 % vede ke změně výsledku -krát a podobně.

Některé transformace nevylepší model, ale pomáhají interpretaci regresních koeficientů. Často se využívá přecentrování (recentering) nebo přeškálování (rescaling). Přecentrování znamená, že změníme interpretaci absolutního členu přičtením konstanty k hodnotám prediktoru. Vzpomeňte si na úvodní regresní rovnici:

koncentrace vitaminu D = 111,1 – 2,4·BMI

Nepraktičnost takto odhadnutých koeficientů je v tom, že číslo 111,1 představuje predikovanou hodnotu koncentrace vitaminu D pro ženu, jejíž BMI je rovno 0 (což je samozřejmě hloupá představa). Pokud však odečteme od pozorovaných hodnot BMI hodnotu mediánu BMI v našem souboru (přibližně 26):

koncentrace vitaminu D = 48,9 – 2,4·(BMI – 26)

Takto odhadnutý absolutní člen (48,9) odpovídá očekávané hodnotě koncentrace vitaminu D pro typickou ženu (s BMI rovnou mediánu BMI ve sledovaném souboru). Přeškálování můžeme využít, pokud jsou hodnoty koeficientů – směrnic, příliš nízké. Pokud například zjistíme, že hodnota koncentrace vitaminu D se s jedním rokem věku ženy mění jen nepatrně, může být praktičtější interpretovat změnu v měřítku celých desetiletí (původní prediktor – věk v letech – vydělíme 10).

Zbývá uvést ukázku možného praktického „receptu“ na modelování (který je samozřejmě vhodné brát trochu s rezervou, neboť různí autoři se ve svých doporučeních mohou lišit):

  1. dejte do modelu s klíčovými prediktory ty diskutabilní jeden po druhém
    • zjistěte vliv na výsledek (je prediktor významný? dává směr účinku smysl?)
    • prozkoumejte změny vlivu (velikosti koeficientu) zájmové proměnné (klíčové expozice nebo ošetření, to které je součástí naší praktické hypotézy) na výsledek, tak můžeme odhalit zavádějící faktor
    • nechejte v modelu zájmovou proměnnou (nebo několik zájmových proměnných), známé prediktory a další identifikované význačné prediktory
  2. pak můžete přistoupit i ke zjednodušení modelu
    • na základě statistické významnosti odhadnutého koeficientu, velmi nevýznamné proměnné ( hodnota značně přesahující 0,05) lze z modelu vyloučit
    • při vylučování však buďte opatrní, protože nevýznamná p-hodnota může být jen náhodným pozorováním a prediktor může ve skutečnosti výsledek ovlivňovat
    • kompromisem může být vylučovat pouze ty proměnné, jejichž vyloučení neovlivní hodnoty koeficientů u ostatních prediktorů
  3. nezapomínejte průběžně kontrolovat, zda navržený model splňuje předpoklady, viz dále
 
vytvořil Institut biostatistiky a analýz Masarykovy univerzity | | zpětné odkazy | validní XHTML 1.0 Strict