Slovník | Vyhledávání | Mapa webu
 
Aplikovaná analýza klinických a biologických datAplikovaná analýza přežití Parametrické odhady Metoda maximální věrohodnosti

Logo Matematická biologie

Metoda maximální věrohodnosti

Odhad neznámých parametrů uvažovaného rozdělení pravděpodobnosti, které jsou nezbytné pro odhady a , je v analýze přežití založen na metodě maximální věrohodnosti (maximum likelihood estimation). Principem metody maximální věrohodnosti je najít odhad parametru (jmenovitě například parametru exponenciálního rozdělení), který maximalizuje pravděpodobnost, že pozorované hodnoty pocházejí z předpokládaného rozdělení. Jinými slovy se snažíme najít takovou hodnotu , pro niž je pravděpodobnost, že pozorované hodnoty pocházejí z předpokládaného rozdělení, maximální. Odhad se tedy snaží maximálně přizpůsobit pozorovaným časům přežití, což je logické, když připouštíme, že data představují jediný zdroj informací o neznámých parametrech. Sdružená hustota pravděpodobnosti odpovídající realizacím náhodné veličiny , tedy pozorovaným hodnotám , má tvar:

f ( t 1 , , t n | θ ) = i = 1 n f ( t i | θ ) (5)

Hlavní myšlenkou metody maximální věrohodnosti je dívat se na sdruženou hustotu nikoliv jako na funkci , ale jako na funkci vektoru parametrů (při pevně daných hodnotách ), a vybrat ze všech možných hodnot takové, aby výraz (5) nabýval svého maxima. Pro tento účel zavádíme tzv. funkci věrohodnosti (likelihood function) ve tvaru . Je nutné si uvědomit, že na rozdíl od standardních dat má v přítomnosti cenzorování příspěvek cenzorovaných a kompletních pozorování k funkci věrohodnosti jiný tvar. Když je čas úplným pozorováním, pak příspěvek tého pacienta k věrohodnostní funkci lze vyjádřit jako , což vyjadřuje pravděpodobnost, že se subjekt dožil času bez události a zároveň u něj v čase událost nastala. Když je čas cenzorovaný, pak příspěvek tého pacienta k věrohodnostní funkci lze zjednodušit pouze na , neboť jediné, co víme, je, že se subjekt bez události dožil času . Abychom mohli zohlednit při specifikaci věrohodnostní funkce cenzorování, je třeba pracovat s pozorovanými dvojicemi hodnot . Věrohodnostní funkce v přítomnosti cenzorování pak má tvar

L ( θ | ( t 1 , d 1 ) , ( t 2 , d 2 ) , , ( t n , d n ) ) = i = 1 n h ( t i ) d i S ( t i ) (6)

Výpočetně je pro nás však výhodnější maximalizovat logaritmus funkce věrohodnosti (přirozený logaritmus je výhodný pro zjednodušení součinu na součet). Zavádíme tedy tzv. logaritmickou věrohodnostní funkci (log-likelihood function), kterou lze pomocí elementárních úprav vyjádřit ve tvaru

l ( θ | ( t 1 , d 1 ) , ( t 2 , d 2 ) , , ( t n , d n ) ) = ln i = 1 n f ( t i | θ ) = ln i = 1 n h ( t i ) d i S ( t i )  
= i = 1 n ( ln h ( t i ) d i + lnS ( t i ) ) (7)
= i = 1 n ( d i ln h ( t i ) - H ( t i ) )  

Příklad 1. S využitím výše uvedeného postupu sestrojíme maximálně věrohodný odhad parametru exponenciálního rozdělení. Věrohodnostní funkce pro exponenciální rozdělení má tvar:

L ( λ | ( t 1 , d 1 ) , , ( t n , d n ) ) = i = 1 n λ d i e ( - λ t i ) . (8)

Označíme-li celkový počet sledovaných událostí, pak můžeme logaritmus funkce věrohodnosti vyjádřit jako

l ( λ | ( t 1 , d 1 ) , , ( t n , d n ) ) = i = 1 n ( d i ln λ - λ t i ) = d ln λ - λ i = 1 n t i . (9)

Maximálně věrohodný odhad pak získáme položením derivace tohoto výrazu podle rovno nule, což znamená

( l ( λ | ( t 1 , d 1 ) , , ( t n , d n ) ) ) = d λ - i = 1 n t i = 0. (10)

Výsledným odhadem je pak relativně intuitivní vyjádření odpovídající celkovému počtu pozorovaných událostí, který vztáhneme na celkový pozorovaný osobo-čas v riziku, tedy na celkový součet časů, po něž byly hodnocené subjekty v riziku sledované události:

λ ^ = d i = 1 n t i (11)

Příklad 2. Vhodnost rozdělení pravděpodobnosti popsaných v  Metody pro srovnání odhadů přežití na reálná data z klinické praxe demonstrujeme na dvou souborech pacientů s maligním onemocněním. Prvním souborem jsou pacienti s metastatickým karcinomem plic z registru TULUNG, kteří byli léčeni protinádorovou terapií. Odhady funkce přežití sestrojené za předpokladu exponenciálního, Weibullova, logaritmicko-normálního a logaritmicko-logistického rozdělení pravděpodobnosti náhodné veličiny jsou pro tento soubor pacientů znázorněny spolu s neparametrickým Kaplanovým-Meierovým odhadem na obr: 5. Na obrázku je vidět, že logaritmicko-normální a logaritmicko-logistické rozdělení velmi pěkně vystihují neparametrický Kaplanův-Meierův odhad funkce přežití s drobnými výjimkami, které však mohou být způsobeny způsobem sběru dat. Odhady pro exponenciální a Weibullovo rozdělení jsou méně přesné, neboť méně kopírují Kaplanův-Meierův odhad.

 

Obr: 5. Odhady funkce přežití sestrojené za předpokladu exponenciálního, Weibullova, logaritmicko-normálního a logaritmicko-logistického rozdělení pravděpodobnosti pro soubor pacientů s metastatickým karcinomem plic, kteří byli léčeni protinádorovou terapií.

 

Druhým souborem jsou pacienti s chronickou myeloidní leukémií z registru CAMELIA, kteří podstoupili transplantaci krvetvorných buněk. Příslušné odhady funkce přežití jsou spolu s neparametrickým Kaplanovým-Meierovým odhadem znázorněny na obr: 6 Z výsledku vidíme, že žádné z uvažovaných rozdělení není na tato data úplně vhodné, neboť se nedokáže vypořádat s poměrně pozvolným klesáním funkce přežití, které je navíc kombinováno s náznakem asymptoty pro funkci přežití po 36. měsíci od transplantace. Funkci přežití, která po určité době od začátku sledování vykazuje asymptotu jinou než 0, je vždy lepší modelovat s pomocí tzv. modelů s podílem statisticky vyléčených pacientů, kterým se věnuje poslední kapitola těchto výukových materiálů.

 

Obr: 6. Odhady funkce přežití sestrojené za předpokladu exponenciálního, Weibullova, logaritmicko-normálního a logaritmicko-logistického rozdělení pravděpodobnosti pro soubor pacientů s chronickou myeloidní leukémií, kteří podstoupili transplantaci krvetvorných buněk.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity