Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza genomických a proteomických dat Úprava a normalizace dat cDNA mikročipů Kontrola kvality Kontrola kvality a normalizace v rámci mikročipu

Logo Matematická biologie

Systematické odchylky

Měřením procenta nekvalitních spotů nemůžeme jednoznačne odhalit případné systematické chyby v měření. Tyto se totiž nemusí projevit v rámci parametrů kvality jednotlivých spotů. Jsou způsobené

  • Nerovnoměrnou hybridizací (prostorové odchylky) - nerovnoměrně omytý čip, nerovnomerně distribuovaný vzorek, print-tip efekt při spotování (defektní jehla - sondy na mikročipových sklíčkách jsou obvykle sázeny (tištěny) skupinou malého počtu jehel a každá z nich vytváří na čipu obdélník spotů zvaný print-tip. Jestliže je nějakým způsobem některá z těchto jehel zničena, odpovídající print-tip spoty se mohou od zbývajících lišit v hybridizaci).
  • Příliš silným signálem pozadí – buď v důsledku špatně omytého čipu, nebo jako důsledek špatně provedené segmentace (část spotu je systematicky kvantifikována jako pozadí).
  • Efektem barviva (jeden kanál má obecně silnější signál než druhý) - odlišná schopnost inkorporace molekul fluorescenčního barviva na cDNA (Cy3, Cy5), a také odlišná reakce na excitaci UV.

Tyto efekty diagnostikujeme grafickou reprezentací dat.

Diagnostiku nerovnoměrné hybridizace (prostorových efektů) provádíme dvěma typy grafů. První je virtuální rekonstrukcí intensit signálů a pozadí v obou kanálech a nazývá se heatmapa. Jedná sa o zobrazení matice, jejíž jednotlivé pole představují řádky a sloupce spotů a jejichž barva je funkcí signálu spotu nebo pozadí v jednom z kanálů, nebo poměru dvou kanálů. Uspořádání spotů získáme ze základní datové matice, pak už jen vytvoříme matici na základě intensit, kterou následně zobrazíme. Obrázek 3.2 zobrazuje dva virtuální obrazy cDNA mikročipů zobrazující log2 poměr Cy5/Cy3 intensit signálů spotů (M, definováno ve výukové jednotce Princip a analýza obrazu DNA mikročipů, rovnice 2.1). Heatmapa vlevo zobrazuje mikročip bez prostorového efektu, heatmapa vpravo zas mikročip s prostorovou systematickou odchylkou – ve spodní části vidíme více signálu v kanálu 1, ve vrchní části zas naopak.

Balík marray poskytuje sadu (nejen) grafických funkcí pro analýzu cDNA čipů. Základní strukturou, s kterou pracuje, a která obsahuje základní data, je třída marrayRaw. Načtěme si data swirl, které představují mikročipový experiment, porovnávající genovou expresi divokého druhu rybky Dánio pruhované a jejího mutanta v genu BMP2. Experiment byl proveden v dye swap designu, dohromady jsou k dispozici 4 mikročipy.

> library(marray)

> data(swirl)

> Gcol <- maPalette(low = "white", high = "green", k = 50)

> Rcol <- maPalette(low = "white", high = "red", k = 50)

> RGcol <- maPalette(low = "green", high = "red", k = 50)

> maImage(swirl[, 3], x = "maRb") # vykreslíme pozadí červeného kanálu

> maImage(swirl[, 3], x = "maGb") # vykreslíme pozadí zeleného kanálu

> maImage(swirl[, 3], x = "maM") #  vykreslíme poměr intenzit spotů obou kanálů (M hodnoty)

Funkce maImage dokáže vykreslit i efekt print-tipu:

>  maImage(swirl[, 1],x="maPrintTip")

Na druhé straně jsou situace, ve kterých heatmapa ukazuje jasné prostorové vzory, které ovšem není vhodné normalizovat. Dokonce i když by uspořádaní transkriptů na čipu mělo být náhodné, jestliže jsou uspořádané podle jejich biologické funkce, může to na heatmapě vytvářet v důsledků biologických odlišností v expresi mezi referenčním a testovaným vzorkem viditelné vzory, které by neměly být normalizovány. Dalším zdrojem vzoru bývají spoty obsahující kontrolní (pozitivní i negativní) sondy, které jsou obvykle uspořádány nenáhodně a systematicky. Tyto spoty mohou obsahovat spike kontroly, provozní geny nebo nemusí obsahovat vůbec žádné sondy.

Obr. 3.3: Krabicové grafy log2 poměru intensit kanálů Cy5 a Cy3 v jednotlivých oblastech mikročipu představující print-tipy.

Pro zobrazení efektu print-tipu můžeme použít také krabicové grafy poměru intensit jednotlivých oblastí představujících print-tipy (obrázek 3.3).  V případě rovnoměrné prostorové hybridizace na celém sklíčku by rozložení krabicových grafů mělo být zhruba stejné (medián i interkvartilové rozpětí). Grafy zobrazují hodnoty M, avšak je vhodné provést také inspekci jednotlivých kanálů individuálně, a to jak pro signál spotů, tak pro pozadí. Dostaneme tak lepší obraz o případných problémech spojených s jednotlivými kanály.

V balíku marray existuje pro zobrazení těchto krabicových grafů funkce

> maBoxplot(swirl[,1])

Efekt barviva lze rozpoznat už z heatmap a krabicových grafů (posunutí mediánu hodnot M systematicky nad, nebo pod nulu), nicméně nejlepším diagnostickým nástrojem v tomto případě je použití jednoduchých bodových grafů (obrázek 3.4).  Nejjednodušší je vykreslit hodnoty intensit kanálu 1 a kanálu 2 proti sobě a proložit grafem hlavní diagonálu(obrázek 3.4 vlevo). V mnoha experimentech je hlavním předpokladem, že většina genů neprojevuje v genové expresi mezi skupinami (testovaná vs referenční hodnota) žádný rozdíl. Na tomto předpokladu je založena většina metod normalizace dat. Proto by většina bodů měla být rozložena kolem hlavní diagonály. V tomto případě tomu tak není, je vidět, že Cy5 kanál svítí systematicky více než kanál Cy3 (shluk je pod hlavní diagonálou).  

Tento typ grafu vykreslíme jednoduše pomocí základní funkce plot, a dvou funkcí, kterými  z marrayRaw objektu extrahujeme intensity spotů červeného a zeleného kanálu:

> R = maRf(swirl[,1])

> G = maGf(swirl[,1])

> plot(R,G)

> abline(a=0, b=1)

Další charakteristikou mikročipových dat je, že efekt barviva není lineární – v nižších hodnotách signálů bývá někdy opačný než ve vyšších hodnotách. Pro odhalení nelineárních trendů slouží tzv. MA graf (anglicky MA plot, obrázek 3.4 vpravo), ve kterém se vykreslují hodnoty M proti průměrným hodnotám intensity signálu v obou kanálech, označovanými A:

(3.1)

kde R je vektor hodnot signálů spotů kanálu Cy5 a G vektor hodnot singálů spotů kanálu Cy3.

Na našem obrázku vidíme, že v nižších průměrných hodnotách (osa x) je intenzita červeného kanálu nižší než intenzita zeleného kanálu (hodnoty M pod nulou), zatímco ve vyšších průměrných hodnotách je intenzita červeného kanálu vyšší než intenzita zeleného kanálu (hodnoty M na nad nulou).  Tento banánovitý tvar je charakteristický pro většinu mikročipových dat.

Obr. 3.4 Bodové grafy studující efekt barviva na intensitu signálu v cDNA dvoukanálovém experimentu.

 

Funkce plot aplikována přímo na objekt třídy marrayRaw vykreslí MA graf, s odhadem křivek podle jednotlivých print-tipů (obrázek. 3.5)

> plot(swirl[,1])

Jiným způsobem je prvně vypočítat hodnoty A a M, a pak je zobrazit pomocí funkce ma.plot:

> A=maA(swirl[,3])

> M=maM(swirl[,3])

> ma.plot(A,M)

Obr. 3.5: MA graf s proložením křivek intensit jednotlivých print-tipů.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity