MAS 5.0 metoda korekce na pozadí
Tato metoda byla popsána v statistickém protokolu analýzy dat Affymetrix GeneChip (Affymetrix, 2002). Nejdříve se odhadne intensita signálu pozadí, která se pak použije pro normalizaci signálů sond (PM i MM), ze kterých se následně odhadne signál exprese sond.
Korekce na intensitu signálu pozadí
Principem je rozdělení čipu na K čtvercových oblastí (K=16), označme je Z. 2 % sond s nejnižší intensitou je pak použito pro odhad signálu pozadí u každé oblasti . Odhad pozadí pro sondu na pozici je pak vypočten váženým průměrem odhadů signálů všech zón:
|
(4.4)
|
Váhy pro sondu na koordinátech a oblast k jsou vypočteny na základě euklideovské vzdálenosti sondy od centroidu čtvercové oblasti :
|
(4.5)
|
kde c je vyhlazovací konstanta (defaultně c = 100).
Počítá se zvlášť pro PM i MM intensity (označme je obecně ), které se pak normalizují odečtením odhadu pozadí. Aby se zabránilo negativním hodnotám, v případě, že je vyšší než , jako odhad intensity spotu se použije :
|
(4.6)
|
kde je upravená intensita pozadí (aby se zabránilo výskytu nuly, pro kterou logaritmus není definován) a je vážený odhad směrodatných odchylek 2 % nejnižších hodnot signálu každé z k oblastí vypočten stejně jako v rovnici (4.4), pouze s dosazením místo .
Odečtení signálu nespecifické hybridizace
Po této korekci následuje odečtení signálu nespecifické hybridizace od hodnot PM. Protože však i MM sondy mohou nabývat vyšších hodnot signálu než hodnoty PM příslušné sondy, což vede k negativnímu signálu exprese, Affymetrix zavedl koncept Ideal mismatch (IM), který nahrazuje hodnoty MM v případě, že jsou větší než signál PM:
(4.7)
|
kde je forma váženého průměru (jednokrokový Tukeyho dvojváhový odhad, anglicky one-step Tukey bi-weight estimate) rozdílů PM a MM hodnot ostatních n sond v sadě, u kterých platí :
|
(4.8)
|
Komponent se porovnává s předem stanovenou hodnotou kontrastu (defaultně ). Je-li větší, IM se vypočte podle řádku 2 vzorce (4.7), je-li menší, nemůžeme ho brát jako přesný odhad pozadí, a proto odhadujeme IM jako hodnotu o něco menší než PM, podle řádku 3 vzorce (4.7), kde je další hranice (defaultně ).
Finální hodnota signálu sondy i sady sond j je pak vypočtena jako:
|
(4.9)
|
Balík affy obsahuje funkci bg.correct, která provádí první část této normalizace – tedy korekci na signál pozadí bez vypočtení hodnot :
> Data.bg.mas5 = bg.correct(Data, method="mas")
Balík affyPLM obsahuje funkci threestep, která je určena pro všechny kroky normalizace a umožňuje korekci na pozadí i s odečtením hodnot IM. Nicméně, výsledkem je objekt typu ExpressionSet, který již obsahuje sumarizaci intensit všech sond dané sady do jedné hodnoty představující expresi transkriptu. Defaultně po korekci na pozadí provede kvantilovou normalizaci a následně sumarizaci intensit sond.
> threestep(Dilution, background.method = "MASIM")