
Lineární regresní model
Předpokládejme na chvilku, že existuje pro všechna pozorování přesný vztah mezi dvěma (nenáhodnými) veličinami y (výsledek) a x (prediktor):
Takto definovaný vztah mezi veličinami však na reálných datech (zejména z biologie nebo medicíny) v praxi pozorujeme stěží. Pro regresní modelování se proto využívá následujícího vztahu, který v sobě již zahrnuje náhodnou veličinu ε (reziduum) reprezentující odchylku od uvedeného ideálního vztahu. Y označuje výsledek (náhodnou veličinu), x označuje prediktor (nenáhodnou, přesně změřenou veličinu). Předpokládejme tedy, že pro jednotlivá pozorování (např. pacienty, lokality, apod.) číslované prostřednictvím indexu i od 1 do n (celkový počet pozorování) platí:
|
(2.1) |
O reziduích budeme předpokládat, že jsou
-
nesystematické – střední hodnota reziduí je rovna 0:
pro i = 1,...,n
-
homogenní v rozptylu – rozptyl reziduí je pro všechna pozorování stejný:
pro i = 1,...,n
-
jsou vzájemně nekorelované:
pro i ≠ j; i, j = 1,...,n
Pro jeden prediktor x se regresní koeficienty značí β0 a β1, jedná se o zmíněný absolutní člen a směrnici regresní přímky. Uvedený vztah lze jednoduše rozšířit na větší počet (p) prediktorů (pak máme celkem k = p + 1 parametrů včetně β0, absolutního členu). Dostáváme definici vícenásobného regresního modelu (multiple regression):
|
(2.2) |
Rozepsáno do vztahů pro očekávané hodnoty (predikce) jednotlivých pozorování i = 1,...,n:
|
|
. |
. |
|
Tuto soustavu vztahů můžeme zapsat jako následující vztah využívající násobení matic:
Vektor výsledků, matici plánu, vektor regresních koeficientů a vektor reziduí označíme po řadě Y, X, β a ε. Maticový zápis regresních rovnic nám umožní zjednodušit definice potřebných statistik.
|
(2.3) |