
Řešený praktický příklad: Rizikové faktory srdeční choroby
V této studii využívající datový soubor [heartdisease] se snažíme určit rizikové faktory ischemické choroby srdeční. Naměřená data jsou ze studie případů a kontrol z Jihoafrické republiky, u pacientů a zdravých kontrolních subjektů byla zjišťována spotřeba tabáku (kumulativní v kg), hladina cholesterolu, rodinná anamnéza a další faktory. V tomto jednoduchém příkladu určíme poměr šancí spojený s vyšší spotřebou tabáku. Nejprve načteme datový soubor.
heartdisease <- read.table("heartdisease.txt", header=TRUE,sep=",")
Syntaxe příkazu pro odhad parametrů logistického modelu je velice podobná jako u obyčejného lineárního modelu. Místo funkce lm()použijeme funkci glm(), která odhaduje parametry zobecněných lineárních modelů. Této funkci musíme specifikovat rozdělení výsledku (argument family) a také případně linkovací funkci. Výsledek uložíme do proměnné model1 a zobrazíme funkcí summary().
model1 <- glm(chd ~ tobacco,
family = binomial(link=“logit“),
data = heartdisease)
summary(model1)
Tato funkce nám mimo jiné zobrazuje hodnoty odhadů regresních koeficientů.
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.18943 0.13900 -8.557 < 2e-16 ***
tobacco 0.14527 0.02476 5.866 4.46e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Nesmíme zapomenout, že abychom mohli regresní koeficienty interpretovat jako poměry šancí, musíme použít exponenciální transformaci.
exp(coef(model1)[2])
tobacco
1.156351
Náš jednoduchý příklad potvrzuje, že přírůstek 1 kg ve spotřebě tabáku statisticky významně zvyšuje „šanci“ na ischemickou chorobu srdeční o .