Rezidua modelu
Obecně lze rezidua modelu (model residuals) definovat jako rozdíl mezi pozorovanou a predikovanou hodnotou sledované (modelované) veličiny. Velké hodnoty reziduí indikují špatnou schopnost modelu vysvětlit pomocí vysvětlujících proměnných proměnnou cílovou, zároveň jakékoliv jejich „systematické chování”, byť v malých absolutních hodnotách, je indikátorem špatného modelu, zejména špatného výběru vysvětlujících proměnných nebo jejich špatné specifikace. Ne všechny proměnné je totiž vhodné zařadit do modelu v lineární formě, občas je vhodnější použít např. kvadratickou formu nebo danou proměnnou kategorizovat. Kategorizace spojitých proměnných by však měla být prováděna s opatrností, protože se jedná o ztrátu informace, která může zvýšit variabilitu modelu a vést ke zkreslení výsledků. Někdy je však důležitá z hlediska interpretace, jako příklad lze uvést využití věkových kategorií (0–50 let, 51–60 let, 61–70 let, 70 a více let).
Jelikož rezidua modelu představují formu nevysvětlené variability, měla by rezidua modelu přežití vykazovat náhodné chování, respektive chování odpovídající statistickým chybám obecně: měla by vykazovat přibližně symetrické rozdělení kolem nulové střední hodnoty a shora ohraničený konstantní rozptyl. Obecně lze říci, že by grafy reziduí neměly vykazovat žádný trend (rezidua by měla tvořit rovnoměrný horizontální pás). Odchylky od těchto předpokladů obvykle znamenají, že rezidua modelu obsahují nějakou informaci, která ukazuje na špatně sestavený model.
Kvůli přítomnosti cenzorování není jednoduché hodnoty reziduí v analýze přežití interpretovat – přínosem je grafická vizualizace a vyhlazení trendu (např. jádrovým vyhlazováním). Nejčastěji používanými rezidui v analýze přežití jsou následující:
- Martingale rezidua (martingale residuals) představují rozdíl mezi pozorovaným a předpokládaným počtem událostí (dle daného modelu) u -tého subjektu. Jedná se o jedno číslo charakterizující shodu pozorovaného s předpokládaným rizikem (pozorované riziko vyjadřuje pozorovaný počet sledovaných událostí, kterých samozřejmě v případě, že se jedná o opakující se události – např. hospitalizace pacienta v nemocnici – může být i více než jedna). Předpokládaný počet událostí () je reprezentován kumulativním rizikem do času . Martingale rezidua jsou tedy definována pomocí vztahu
|
Martingale rezidua lze použít také pro identifikaci nelineárního vlivu vybrané vysvětlující proměnné a pro zhodnocení, zda např. daná proměnná nebyla z modelu nesprávně vyloučena.
- Deviační rezidua (deviance residuals) také představují jednu číselnou hodnotu na jeden studovaný subjekt a jejich použití je v identifikaci odlehlých pozorování, tedy subjektů, u nichž je výrazný rozpor mezi pozorovaným a předpokládaným rizikem. Na rozdíl od martingale reziduí jsou totiž tato rezidua určitým způsobem standardizována, takže lze snáze identifikovat subjekty s nepřesnou/nedostatečnou predikcí předpokládaného rizika.
- Skórová rezidua (score residuals) již na rozdíl od předchozích dvou typů představují vektor čísel, který obsahuje pro jeden hodnocený subjekt jedno číslo pro každou proměnnou zahrnutou do modelu. Každé z čísel reprezentuje přínos subjektu k odhadu regresního koeficientu pro danou proměnnou. Z tohoto důvodu lze skórová rezidua použít pro identifikaci tzv. vlivných pozorování (influential observations, leverage points), tedy jedinců, kteří výrazným způsobem ovlivňují velikost regresních koeficientů jednotlivých proměnných.
- Schoenfeldova rezidua (Schoenfeld residuals) jsou také vektorem čísel, tedy každé proměnné patří pro jeden subjekt jedna hodnota. Schoenfeldova rezidua se vztahují k pozorovanému času přežití, kdy v tomto čase vyjadřují rozdíl mezi pozorovanou hodnotou proměnné u subjektu s událostí a očekávanou hodnotou proměnné , kterou vypočítáme na základě dat všech subjektů v riziku k danému času . V transformované formě (pro tzv. škálování je použit odhad rozptylu Schoenfeldových reziduí) je lze využít pro testování předpokladu proporcionality rizik.