Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datRegresní modelování Lineární regresní model Řešený praktický příklad: závislost koncentrace vitamínu na BMI

Logo Matematická biologie

Řešený praktický příklad: závislost koncentrace vitamínu na BMI

Vraťme se k příkladu, kterým jsme tuto výukovou jednotku začínali: modelujeme závislost sérové koncentrace vitaminu D (proměnná vitd) na indexu tělesné hmotnosti (proměnná bmi). K dispozici máme následující datovou tabulku se vzorkem 41 irských žen z datového souboru [vitaminD].

vitd

bmi

37,6

26,391

53,0

20,540

66,7

23,500

...

...

43,7

25,723

35,2

21,107

17,0

30,978

Proměnná vitd představuje výsledkovou proměnnou, proměnná bmi prediktor:

Takto tedy vypadá vektor výsledků (Y)

A takto matice plánu X

Nyní odhadneme parametry tohoto jednoduchého modelu prostřednictvím programu R. Nejprve si ukážeme zdlouhavější postup kopírující výpočty popsané v kapitole Jak definujeme lineární regresní model, poté okomentujeme syntaxi a výsledky volání funkce lm(), která se v programu R používá pro odhad parametrů lineárního regresního modelu. Následující rámečky uvádějí v levém sloupci kód v programu R a jeho slovní popis, v pravém sloupci pak symbolická reprezentace uvedeného postupu.

XX <- t(X) %*% X

součin transponované matice X a původní matice X

 

XX_inv <- solve(XX)

inverze maticového součinu

 

Beta_hat <- XX_inv %*% ( t(X) %*% Y )

výpočet odhadu regresních koeficientů

 

Y_hat <- X %*% Beta_hat

predikované hodnoty výsledku

 

s2 <- t(Y_hat - Y) %*% (Y_hat - Y) / (41-2)

reziduální součet čtverců

 

 

c <- matrix(c(0,1),ncol=1)

sloupcový vektor

T <- abs(t(c) %*% beta_hat) /
(sqrt(s2) * sqrt( t(c) %*% XX_inv %*% c))

testové kritérium pro t-test

 

qt(0.975,41-2)

97,5% kvantil studentova rozdělení s 39 stupni volnosti

 

2*(1-pt(T,41-2))

p-hodnota

 

Prakticky je samozřejmě odhad parametrů v programu R výrazně jednodušší – využijeme připravené funkce lm(). Základní výsledky získáme odesláním následujících funkcí:

model <- lm(vitd ~ bmi, data = irlwomen)

summary(model)

Dostáváme následující výsledek:

Nejprve je zopakována formulace regresního modelu ve funkci lm():

Call:

lm(formula = vitd ~ bmi, data = irlwomen)

Následuje základní popisná statistika vektoru reziduí:

Residuals:

   Min     1Q Median     3Q    Max

-25.36 -12.96  -0.41  11.09  52.83

Zde je uveden samotný odhad modelových parametrů, spolu s potřebnými testovými statistikami (postupně jsou uvedeny bodové odhady, směrodatné chyby těchto odhadů, hodnoty t-statistiky a příslušné p-hodnoty pro nulovou hypotézu rovnosti koeficientu 0):

Coefficients:

            Estimate Std. Error t value Pr(>|t|)   

(Intercept) 111.0535    18.4014   6.035 4.63e-07 ***

bmi          -2.3924     0.6902  -3.466   0.0013 **

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Reziduální součet čtverců a počet stupňů volnosti:

Residual standard error: 17.91 on 39 degrees of freedom

Koeficient determinace a jeho adjustovaná varianta (její hodnota se snižuje s rostoucím počtem prediktorů, může tedy být vhodnější pro srovnávání predikční síly modelů):

Multiple R-squared:  0.2355, Adjusted R-squared:  0.2159

A konečně F-statistika pro významnost všech prediktorů zároveň. Všimněte si, že v tomto případě (pouze jediný spojitý prediktor) je p-hodnota totožná s p-hodnotou t-testu významnosti prediktoru bmi.

F-statistic: 12.02 on 1 and 39 DF,  p-value: 0.001299

 

 

 

 

 
vytvořil Institut biostatistiky a analýz Masarykovy univerzity | | zpětné odkazy | validní XHTML 1.0 Strict