Slovník | Vyhledávání | Mapa webu
 
Aplikovaná analýza klinických a biologických datAplikovaná analýza přežití Coxův model proporcionálních rizik II Výběr vysvětlujících proměnných do modelu

Logo Matematická biologie

Výběr vysvětlujících proměnných do modelu

Ve chvíli, kdy máme ujasněnu sadu vysvětlujících proměnných pro modelování přežití, zbývá otázka, jak z těchto proměnných sestavit výsledný model, respektive jaké proměnné z výchozí sady do modelu nezahrnout a jaké ano, případně ještě s jakými vzájemnými interakcemi. Postupů pro výběr vysvětlujících proměnných do výsledného modelu existuje několik, vždy záleží zejména na preferenci příslušného analytika dat, obecně však lze říci, že jakýkoliv postup, který je založen na uvažování analytika, je lepší než postup automatický, naprogramovaný ve statistickém software. Analytik by totiž měl mít modelování pod kontrolou, spolupracovat s odbornou literaturou či odborníky, a nespoléhat se pouze na automatické procedury. Obecně jsou pro výběr proměnných do modelu nejpoužívanější metody postupné redukce nebo rozšiřování souboru proměnných tzv. stepwise procedury:

  • Backward elimination (postupná redukce proměnných) – tento postup spočívá v tom, že z tzv. kompletního modelu (complete model) obsahujícího všechny proměnné, které jsme schopni do modelu zahrnout, postupně ubíráme jednotlivé proměnné na základě určitého kritéria. Tímto kritériem často bývá statistická významnost jednotlivých proměnných, případně lze pro ověření možnosti zjednodušení modelu použít statistický test.
  • Forward selection (postupné přidávání proměnných) – druhou možností je vysvětlující proměnné do modelu postupně přidávat. V tomto případě začínáme model s jednou nebo pouze málo proměnnými, o jejichž vlivu na přežití víme (v onkologických studiích to může být např. stadium nádoru nebo věk pacienta), a tuto sadu postupně s využitím určitého kritéria rozšiřujeme.

V experimentech, které mají pouze průzkumný charakter, se můžeme setkat i s výběrem proměnných pomocí náhodného vzorkování všech vysvětlujících proměnných, kdy z celé sady proměnných k dispozici opakovaně vybíráme několik proměnných a zkoušíme jejich význam vzhledem k přežití. Tento postup však může být problematický vzhledem k lineární závislosti mezi jednotlivými proměnnými (tzv. multikolinearita, multicollinearity), kterou bychom měli vyloučit, jinak nám hrozí zkreslení výsledků.

Máme-li k dispozici pro modelování relativně malý počet vysvětlujících proměnných a jsme schopni je do modelu zahrnout (byť třeba postupně) všechny, není třeba uvažovat žádné další metody pro redukci jejich počtu. Je-li však vysvětlujících proměnných mnoho, je třeba zapojit vícerozměrné metody pro výběr pouze omezeného počtu proměnných, které budou analyticky zvládnutelné. V podstatě jde o to identifikovat shluky proměnných, které jsou vzájemně korelované a které z výše uvedených důvodů stejně nelze do modelu zahrnout všechny, a z nich následně vybrat reprezentativní zástupce pro modelování vlivu na přežití. Cílem použití vícerozměrných metod je tak odstranit nadbytečnou informaci, která je obsažená v korelovaných proměnných.

Dalším důležitým tématem je velikost modelovaného souboru pacientů (subjektů), které je o to důležitější, že se v analýze přežití potýkáme s cenzorováním časů přežití. Je třeba si totiž uvědomit, že v analýze přežití nám nejde jen o absolutní velikost souboru, ale zejména o dostatečný počet sledovaných událostí. Důvodem je fakt, že právě skutečný čas do sledované události představuje v analýze přežití informaci využitelnou pro modelování. Pokud bychom měli sice stovky pacientů, ale bez dostatečného sledování a bez zaznamenaných událostí, nejsme schopni udělat ani pořádný odhad pravděpodobnosti přežití pomocí Kaplanovy-Meierovy metody, natož modelovat vliv vysvětlujících proměnných. V ideálním případě by měla být velikost vzorku vždy plánována před zahájením experimentu (pro tento účel lze dnes již využít specializovaný software), pokud hodnotíme studii zpětně, existuje alespoň orientační pravidlo spojující velikost analyzovaného souboru a počet vysvětlujících proměnných, které je možné zahrnout do modelu. Peduzzi a kol. (1995) na základě simulační studie navrhli do modelu zahrnout 1 vysvětlující proměnnou na minimálně 8-10 pozorovaných necenzorovaných událostí. Máme-li tedy k dispozici např. soubor s 50 pozorovanými událostmi (a celkový soubor může čítat klidně stovky pacientů), neměli bychom do modelu přežití zahrnout více než 5-6 vysvětlujících proměnných. V případě, že nemáme alespoň 8-10 událostí na 1 vysvětlující proměnnou lze očekávat, že bodové i intervalové odhady regresních koeficientů budou variabilní, málo stabilní a tudíž nevěrohodné. Navíc se může stát, že z důvodu velké variability model selže ve výběru významných proměnných a výsledky budou zkreslené.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity