Kategoriální prediktor
Neméně užitečný model zahrnuje prediktor kategoriální. Ukažme si takový model na příkladu, ve kterém se snažíme modelovat podíl tukové tkáně v procentech v závislosti na kategorii dle indexu tělesné hmotnosti (podváha, normální váha, nadváha, obezita). Příslušná data jsou znázorněna na obrázku 2.5.
Do matice plánu samozřejmě není možné vložit přímo kategoriální proměnnou. Proto musíme tuto kategoriální proměnnou před použitím v regresním modelu převést na sadu indikátorových (dummy) proměnných. Pro jednotlivé kategorie původní proměnné (s výjimkou první) zavedeme indikátorové proměnné, které nabývají hodnoty 1, pokud původní proměnná nabývá příslušné hodnoty, a 0 jinak. První kategorie původní proměnné je pak reprezentována nulovou hodnotou všech indikátorových proměnných zároveň. Situace je na příkladu ukázána v tabulce 2.1.
Tab. 2.1: Příklad převodu kategoriální proměnné na sadu nových indikátorových proměnných. V posledním sloupci je uveden vztah pro očekávanou hodnotu výsledku pro příslušné pozorování.
Původní proměnná kategorie BMI |
Nové proměnné | |||
Indikátor: Normální váha |
Indikátor: Nadváha |
Indikátor: Obezita |
||
Podváha | 0 | 0 | 0 | |
Normální váha | 1 | 0 | 0 | |
Nadváha | 0 | 1 | 0 | |
Obezita | 0 | 0 | 1 |
Příslušný řádek matice plánu pak pro jednotlivá pozorování obsahuje jedničku ve druhém, třetím, nebo čtvrtém sloupci pro pacienty s normální váhou, nadváhou a obezitou. Pacienti s podváhou mají tedy očekávanou hodnotu výsledku rovnu koeficientu β0, u pacientů s normální váhou, nadváhou nebo obezitou se přidává ještě regresní koeficient β1, β2 nebo β3.
Podváha Normální váha Nadváha Obezita |
Obr. 2.5: Závislost podílu tukové tkáně na kategorii tělesné hmotnosti: znázornění odhadnutých koeficientů v modelu s kategoriálním prediktorem.