Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datRegresní modelování Opakování základů biostatistiky Motivace kurzu - účel regresního modelování

Logo Matematická biologie

Motivace kurzu - účel regresního modelování

Lineární regresní modely využíváme pro modelování (vysvětlení pozorovaných hodnot) spojité výsledkové proměnné (výsledku, závisle proměnné). Výsledek se snažíme vysvětlit prostřednictvím jednoho nebo více prediktorů (nezávisle proměnných, vysvětlujících proměnných). Prediktory mohou být buď rovněž spojité, nebo kategoriální.

Základním cílem tohoto kurzu bude seznámit čtenáře s užitím tzv. vícenásobného regresního modelu (multiple regression), tedy modelu, ve kterém se snažíme vysvětlit hodnoty výsledku modelem, který zahrnuje více než jeden prediktor.

Regresní modelování má obrovský význam při řešení následujících praktických problémů [1]:

  1. Zjištění „čistého“ vlivu konkrétního prediktoru na výsledek

I v případě, že nás zajímá vliv jediného prediktoru na výsledek, nemusí být bivariátní analýza (tedy analýza zahrnující jen tyto dvě proměnné) dostatečná. V praxi totiž velice často dochází k tzv. zavádějícím efektům, kdy má třetí proměnná vztah k prediktoru i výsledku, což odhad vztahu mezi prediktorem a výsledkem zcela zkreslí (blíže viz Modelovací strategie a ověření předpokladů modelu).

Příklad: Představme si epidemiologickou studii, ve které zkoumáme vliv konzumace kávy na riziko ischemické choroby srdeční (ICHS). Po nasbírání dat a jednoduchém vyhodnocení se konzumace kávy zdá být spojena s vyšším rizikem ICHS. Důvodem je však spojení konzumace kávy s kouřením, které má vliv na riziko ICHS. Není tedy divu, že z jednoduché analýzy jako rizikový faktor jeví i konzumace kávy. Z podrobnější analýzy však můžeme zjistit, že samotná konzumace kávy proti chorobě spíše chrání.

  1. Pochopení vztahu mezi více prediktory a výsledkem

Mohou samozřejmě nastat i situace, kdy existuje více významných prediktorů zkoumaného výsledku. V praxi důležitým příkladem složitějšího vztahu mezi vysvětlujícími proměnnými a jejich společného vlivu na výsledek je tzv. interakce (také modifikace účinku).  V takovém případě nelze vliv nějakého prediktoru na výsledek stanovit obecně, místo toho musíme brát v úvahu i hodnotu určité další proměnné (blíže viz Praktické otázky vícenásobné lineární regrese).

Příklad: Snažíme se zjistit vliv kouření na riziko ICHS. Pokud se věnujeme zvlášť osobám mladším a starším, můžeme zjistit, že nárůst rizika v souvislosti s kouřením se liší pro jednotlivé skupiny osob dle věku. To znamená, že účinek kouření je modifikován věkem a dochází k interakci těchto dvou prediktorů.

  1. Předpověď výsledku pro nově pozorované subjekty

Regresní model nám umožňuje vytvořit pravidlo (regresní rovnici), pomocí které jsme schopni odhadnout (předpovědět, predikovat) hodnotu výsledkové proměnné i pro nová pozorování.

Příklad: V dlouhodobé epidemiologické studii zjistíme, jak ve sledované skupině osob ovlivňují riziko úmrtí v důsledku srdečně cévního onemocnění proměnné jako celkový cholesterol, systolický krevní tlak, pohlaví a kouření. Výsledkem je rovnice, která nám z hodnot uvedených proměnných umožňuje stanovit konkrétní riziko této události pro daného člověka. Tuto rovnici pak můžeme aplikovat i na změřené hodnoty pro další osoby, které se uvedené studie neúčastnily.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity