Slovník | Vyhledávání | Mapa webu
 
Aplikovaná analýza klinických a biologických datAplikovaná analýza přežití Coxův model proporcionálních rizik II Sestavení modelu

Logo Matematická biologie

Sestavení modelu

Použití regresního modelu nám umožňuje současně uvažovat vliv více vysvětlujících proměnných na přežití a vzájemně tak adjustovat jejich společné působení. Výběr proměnných do modelu a jeho následná finalizace však vždy závisí na účelu studie a analytikovi, který modelování provádí. Před použitím regresního modelu na data přežití je proto třeba si vždy ujasnit, proč vlastně modelujeme a co od modelu požadujeme. Scénáře pro hodnocení mohou být následující:

  1. Cílem hodnocení je jedna vysvětlující proměnná. V tomto případě nám jde o kvantifikaci a statistickou významnost vlivu jedné konkrétní vysvětlující proměnné, u níž předpokládáme její vliv na přežití pacientů, např. vliv podané léčby. Typicky se jedná o modelování výsledků klinických studií. Ostatní vysvětlující proměnné pak vystupují v modelu v roli adjustovaných proměnných. Je-li naším hlavním zájmem jedna konkrétní proměnná, má smysl její vliv na přežití adjustovat na statisticky významné i na nevýznamné proměnné. Ve výsledném modelu by proto měly kvůli adjustaci zůstat i proměnné s nevýznamným vlivem, neboť i ty mohou hrát roli pro správnou identifikaci vlivu sledované proměnné.
  2. Cílem hodnocení je regresní nebo prediktivní model. V tomto případě se snažíme pozorované hodnoty přežití vysvětlit pomocí skupiny sledovaných proměnných, u které opět předpokládáme její vztah k přežití pacientů. Z této množiny proměnných chceme vybrat sadu, která je schopna vysvětlit významnou část variability v hodnotách přežití (regresní model) nebo je dobře schopna jeho predikce (prediktivní model). Vycházíme většinou z relevantních proměnných, kde vlastně u všech předpokládáme relevanci vzhledem k přežití, ale ve výsledném modelu se následně vyskytují pouze ty s nejsilnějším vlivem. V této souvislosti je klíčové téma složitost modelu (počet zahrnutých vysvětlujících proměnných a jejich interakcí), protože vždy platí, že výsledný model musí dobře reprezentovat data, ale zároveň musí být i klinicky interpretovatelný a uchopitelný. Zároveň je nutné rozlišovat účel, tedy zda stavíme regresní nebo prediktivní model, statistická významnost vysvětlující proměnné v regresním modelu totiž ještě nutně nemusí zaručovat její přínos pro predikci.
  3. Cílem je identifikace potenciálních prediktorů. Hodnotíme-li přežití na datovém souboru s řádově větším množstvím vysvětlujících proměnných než je počet sledovaných pacientů, je třeba tuto množinu nejprve redukovat na únosnou míru. Jako příklad lze uvést výstupy molekulárně-biologických a genetických asociačních studií vzhledem k přežití – např. expresní profily sledovaných genů, kterých mohou být až tisíce. Jedná se o vlastně o průzkumnou analýzu pomocí násobného použití modelu s jednou proměnnou, kdy z množiny zaznamenávaných proměnných chceme vybrat ty, co jsou významně asociované s přežitím, respektive identifikovat ty nejvýznamnější. V každém případě je třeba dávat pozor na falešně pozitivní výsledky, neboť se v principu jedná o násobné testování hypotéz, které je zatíženo zvýšenou pravděpodobností chyby 1. druhu.

Klíčovým tématem je v kontextu sestavování modelu přežití i úplnost dat a zastoupení jednotlivých kategorií klíčových proměnných. Tyto aspekty totiž také spolurozhodují o tom, které proměnné si vůbec můžeme dovolit do modelování zahrnout. Proměnná s vysokým procentem chybějících údajů může být sebevíce asociována s přežitím, ale v případě, že ji nejsme schopni korektně a validně zjistit u velkého množství pacientů, je k ničemu. Stejně tak proměnná, kde máme pouze raritně zaznamenanou určitou kategorii, např. výskyt vzácného onemocnění, má pouze omezenou použitelnost, neboť odhad vlivu málo četné kategorie na přežití je zatížen velkou variabilitou a je tudíž málo validní.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity