Slovník | Vyhledávání | Mapa webu
 
Aplikovaná analýza klinických a biologických datAplikovaná analýza přežití Nástroje regresní diagnostiky Úvod

Logo Matematická biologie

Úvod

Nástroje regresní diagnostiky slouží v regresním modelování ke dvěma hlavním cílům: pro hodnocení vhodnosti modelu (goodness of fit) vzhledem k pozorovaným časům přežití a pro hodnocení splnění předpokladů modelu (model assumptions). Cílem použití těchto nástrojů je tak zjistit, zda pozorovaná data nejsou v rozporu s předpoklady modelu a zda náš model adekvátně (respektive co nejlépe) vystihuje přežití sledovaných subjektů. Oba cíle jsou těsně spjaty s výběrem modelu, výběrem sady vysvětlujících proměnných a jejím finálním zjednodušením. Nástroje regresní diagnostiky lze s ohledem na různý cíl použití zařadit do následujících kategorií:

  1. Vizualizace neparametrických odhadů charakteristik přežití, které nám slouží zejména pro vyhodnocení splnění předpokladů modelu. Různými transformacemi odhadů funkce přežití a kumulativní rizikové funkce jsme schopni posoudit jak adekvátnost předpokladu proporcionality rizik, tak přibližný tvar rizikové funkce.
  2. Výpočet reziduí modelu a jejich vizualizace (grafy reziduí). Rezidua modelu představují formu variability, kterou se nám nepodařilo vysvětlit pomocí vysvětlujících proměnných zařazených do modelu. Protože se jedná o formu chyby našeho regresního nebo prediktivního odhadu, lze rezidua modelu použít pro hodnocení celkové vhodnosti modelu (tato funkce úzce souvisí se statistickými testy popsanými níže) a vhodnosti zařazení jednotlivých proměnných do modelu.
  3. Akaikeho informační kritérium (AIC). AIC je statistická charakteristika zahrnující věrohodnost modelu i jeho složitost. Slouží k posouzení schopnosti různých modelů adekvátně vysvětlit pozorovaná data.
  4. Statistické testy jsou obecnou skupinou nástrojů regresní diagnostiky, které lze využít jak pro hodnocení vhodnosti modelu (např. test dle Parzena a Lipsitze), tak pro ověření splnění předpokladů modelu (např. test proporcionality rizik založený na škálovaných Schoenfeldových reziduích).

Klíčovým tématem je v kontextu sestavování modelu přežití i úplnost dat a zastoupení jednotlivých kategorií klíčových proměnných. Tyto aspekty totiž také spolurozhodují o tom, které proměnné si vůbec můžeme dovolit do modelování zahrnout. Proměnná s vysokým procentem chybějících údajů může být sebevíce asociována s přežitím, ale v případě, že ji nejsme schopni korektně a validně zjistit u velkého množství pacientů, je k ničemu. Stejně tak proměnná, kde máme pouze raritně zaznamenanou určitou kategorii, např. výskyt vzácného onemocnění, má pouze omezenou použitelnost, neboť odhad vlivu málo četné kategorie na přežití je zatížen velkou variabilitou a je tudíž málo validní.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity