![Logo Matematická biologie](images/logo-matbiol.png)
Mantelův-Haenszelův log-rank test
Log-rank test, který se stejně jako Kaplanův-Meierův odhad funkce přežití stal standardem v hodnocení klinických studií, byl navržen v roce 1959 Mantelem a Haenszelem jako modifikace testu pro analýzu stratifikovaných kontingenčních tabulek. Důvodem pro označení log-rank test je fakt, že testovou statistiku lze odvodit z pořadí (ranks) hodnot pozorovaných časů přežití v jednotlivých skupinách subjektů. My zde však odvodíme testovou statistiku pomocí principu využívaného v analýze kontingenčních tabulek, jmenovitě v případě Pearsonova chí-kvadrát testu. Odvoďme nejprve log-rank test pro dvě skupiny subjektů. Předpokládejme v obou skupinách celkem různých časů přežití takových, že platí
. V každém z těchto
časů přežití můžeme sestavit kontingenční tabulku shrnující pozorované přežití v obou skupinách. Označme
a
počty subjektů v riziku v čase
ve skupině 1 a 2 a obdobně
a
počty sledovaných událostí v čase
ve skupině 1 a 2. Pak příkladem kontingenční tabulky shrnující pozorované přežití ve skupinách 1 a 2 v čase
je tabulka 5.1. Předpokládejme, že obě skupiny jsou na začátku sledování stejně početné. Pak bychom za platnosti nulové hypotézy o tom, že mezi skupinami 1 a 2 není rozdíl v přežití, měli v čase
pozorovat přibližně stejně událostí v jedné i druhé skupině, jinými slovy hodnoty
a
by měly být přibližně stejné. Podobná úvaha za platnosti
platí i pro zbývajících
časů přežití. V celkovém součtu všech časů přežití pak logicky za platnosti
očekáváme i stejný počet událostí v obou skupinách. Jakákoliv odchylka od tohoto předpokladu indikuje rozdílné přežití ve skupinách 1 a 2.
Tabulka 5.1 Pozorované počty událostí v čase .
Skupina |
Počet subjektů v riziku v čase |
Počet událostí
v čase |
Počet subjektů bez události v čase |
1 |
|
|
|
2 |
|
|
|
Celkem |
|
|
|
Mantel a Haenszel navrhli hodnocení s pomocí pozorovaných četností
,
,
a
za podmínky pevně daných marginálních četností, což vede k hodnocení
(ostatní pozorované četnosti jsou vzhledem k pevným marginálním četnostem dané). Za platnosti
lze ukázat, že náhodná veličina
má hypergeometrické rozdělení pravděpodobnosti a její podmíněná střední hodnota má tvar
|
Podmíněný rozptyl má tvar
|
V čase lze tedy rozdíl mezi pozorovanou a očekávanou četností výskytu sledované události ve skupině 1 vyjádřit jako rozdíl
. Logickým rozšířením přes všech
pozorovaných časů přežití je pak statistika
definovaná jako
|
Jednoduše řečeno, statistika vyjadřuje rozdíl mezi celkovým a očekávaným počtem sledovaných událostí ve skupině 1. Navíc, za platnosti
bude mít statistika
přibližně normální rozdělení pravděpodobnosti s nulovou střední hodnotou. Její rozptyl lze za předpokladu nezávislosti jednotlivých pozorovaných časů přežití vyjádřit jako součet rozptylů jednotlivých komponent
, tedy jako
|
Má-li statistika přibližně normální rozdělení pravděpodobnosti s nulovou střední hodnotou, pak statistika
má přibližně normální rozdělení pravděpodobnosti s nulovou střední hodnotou a jednotkovým rozptylem (aproximace je tím lepší, čím více máme pozorovaných událostí). Z teorie pravděpodobnosti pak plyne, že statistika
|
má přibližně chí-kvadrát rozdělení pravděpodobnosti s jedním stupněm volnosti. O platnosti nulové hypotézy rozhodujeme po vypočtení testové statistiky srovnáním s příslušným kvantilem teoretického chí-kvadrát rozdělení. Pro nulovou hypotézu jsou příznivé nízké hodnoty , kdy pozorované četnosti souhlasí s očekávanými, a naopak, čím vyšší hodnota testové statistiky, tím menší pravděpodobnost, že nulová hypotéza skutečně platí.
Log-rank test stejně jako ostatní neparametrické metody předpokládá nezávislost cenzorování a výskytu jednotlivých událostí. Porušení tohoto předpokladu (např. je-li v jedné ze skupin větší pravděpodobnost cenzorování) může vést ke zkresleným závěrům testu a tak znehodnocení výsledků.