
Předpoklady regresních modelů
Ze samotné definice lineárního regresního modelu vyplývá několik předpokladů. Tyto předpoklady, které mohou být v praxi často omezující, se v dalších výukových jednotkách tohoto kurzu naučíme překonávat. Následující přehled je tak zároveň rekapitulací klíčových předpokladů lineárních regresních modelů i motivací ke studiu dalších výukových jednotek, ve kterých budou představeny pokročilejší modelovací postupy.
- Linearita modelu
U popsaného regresního modelu předpokládáme, že očekávaná hodnota výsledku je dána lineární kombinací popsaných parametrů. V následující kapitole Prediktory různých datových typů, kategoriální prediktor si nicméně ukážeme, že není bezpodmínečně nutná linearita s ohledem na hodnoty prediktorů – hodnoty prediktoru můžeme vložit jako transformované druhou nebo vyšší mocninou a dosáhnout tak polynomiální závislosti výsledku na prediktoru.
- Aditivita účinků jednotlivých prediktorů
Prozatím jsme předpokládali, že účinek nějakého prediktoru je nezávislý na hodnotách ostatních prediktorů. To však v praxi nemusí platit a tento předpoklad může být omezující. Ve výukové jednotce Praktické otázky vícenásobné lineární regrese si ukážeme, jak lze toto omezení překlenout prostřednictvím tzv. interakčních členů.
- Rezidua mají normální rozdělení s nulovou střední hodnotou a konstantním rozptylem
Ve třídě lineárních modelů předpokládáme normální rozdělení reziduí (a z toho vyplývající rozdělení výsledku podmíněné hodnotami prediktorů). To opět nemusí být vždy vyhovující, zejména pro výsledkové proměnné kategoriálního typu. Ve výukové jednotce Logistický regresní model a jiné zobecněné lineární modely se setkáme s třídou zobecněných lineárních modelů, které nám dávají mnohem větší flexibilitu s ohledem na rozdělení výsledkové proměnné.
- Pozorování jsou vzájemně nezávislá
Základní biostatistické metody včetně lineárních regresních modelů předpokládají, že rezidua jsou vzájemně nezávislé proměnné. To opět v praxi nemusí být pravda. Například při dlouhodobém sledování pacientů jsou hodnoty nějakého znaku (např. krevního tlaku, biochemického ukazatele) získané od jednoho pacienta v různých časech zřejmě vzájemně podobnější než hodnoty získané od různých pacientů. To obnáší jistou korelaci mezi různými pozorováními u stejného pacienta a tedy porušení tohoto předpokladu. Řešením je v takovém případě použít třídu tzv. smíšených modelů, které umožňují modelovat korelaci v rámci shluků podobnějších pozorování (nejen pacientů, ale například jednoho lékaře, zdravotnického zařízení apod.). S těmi se seznámíme ve výukové jednotce Smíšené modely.