Hodnocení vhodnosti modelu
Ověřování platnosti modelu je v modelování důležitým krokem a je obvykle založeno na reziduích modelu, která představují rozdíl mezi pozorovaným výskytem sledovaných událostí a odpovídající predikcí událostí vypočtené s použitím regresního odhadu. Hodnocení vhodnosti modelu představuje velmi náročný úkol, protože objektivně není dáno, co je vhodný model a co už ne. Pro hodnocení celkového úspěšnosti modelu s ohledem na vysvětlenou variabilitu v datech přežití lze použít test dle Parzena Lipsitze [1] založený na podobném principu jako Pearsonův chí-kvadrát test pro kontingenční tabulky. Autoři navrhují rozdělit soubor hodnocených subjektů do K skupin dle rizika predikovaného modelem (vzhledem k tomu, že základní riziková funkce je stejná pro všechny subjekty, lze rozdělení provést pouze na základě hodnoty lineárního prediktoru) a v těchto skupinách následně vyhodnotit rozdíl mezi pozorovaným a očekávaným počtem sledovaných událostí. Pro toto vyhodnocení jsou použita martingale rezidua, respektive testová statistika dle Parzena Lipsitze je jejich transformací. Pro dostatečně velké soubory (kritérium pro dostatečnou velikost vzorku je podobné jako u Pearsonovy chí-kvadrát statistiky pro kontingenční tabulku) pak má testová statistika přibližně chí-kvadrát rozdělení s stupni volnosti.
Pro srovnání dvou modelů lze použít tzv. Akaikeho informační kritérium (Akaike information criterion, AIC), které slouží k posouzení schopnosti různých modelů vysvětlit variabilitu v pozorovaných datech. Statistika AIC je definována jako
. |
(10.4) |
kde je logaritmus věrohodnostní funkce modelu, je počet vysvětlujících proměnných v modelu a je počet parametrů uvažovaného rozdělení pravděpodobnosti. AIC je tak statistikou, která zohledňuje jak věrohodnost modelu, tak jeho složitost. Preferovány jsou modely s nižšími hodnotami AIC, které indikují lepší schopnost modelu „sedět“ na pozorovaná data. Nevýhodou AIC je však jeho nepoužitelnost v případě Coxova modelu, který se vyhýbá specifikaci konkrétního rozdělení pravděpodobnosti dat přežití. Hodnoty AIC spočítané pro Coxův model jsou totiž nesrovnatelné (srovnání by bylo vysoce zavádějící i z důvodu, že Coxův model využívá metody parciální věrohodnosti) s hodnotami AIC spočítanými pro model parametrický, využívající určité rozdělení pravděpodobnosti dat přežití.