Analýza genomických a proteomických datAnalýza genomických a proteomických dat Analýza obrazu (kvantifikace signálu) DNA mikročipů cDNA mikročipy Kvantifikace signálu

Analýza genomických a proteomických dat |

Současné výzvy a technologie genomiky a proteomiky |

Výstupy z výukové jednotky | Úvod | Moderní technologie analýzy genomu a proteomu a jejich datové výstupy |

Mikročipy | Hmotnostní spektrometrie | 2D gelová elektroforéza | Shrnutí |

Bioinformatika a statistika v analýze genomických a proteomických dat |

Typy dat a potřeba jejich úpravy | Základní kroky analýzy genomických a proteomických dat | Standardy analýzy genomických a proteomických dat | Software pro analýzu |

Příklady k procvičení |

Princip a rozdělení DNA mikročipů |

Analýza obrazu (kvantifikace signálu) DNA mikročipů |

Výstupy z výukové jednotky | Úvod | cDNA mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Oligonukleotidové mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Příklady k procvičení | Literatura |

Úprava a normalizace dat cDNA mikročipů |

Výstupy z výukové jednotky | Úvod | Kontrola kvality |

Kontrola kvality v rámci spotů | Kontrola kvality a normalizace v rámci mikročipu |

Procento nekvalitních měření | Systematické odchylky |

Normalizace cDNA mikročipů a vytvoření finální datové matice |

Normalizace v rámci mikročipu |

Normalizace mezi mikročipy |

Sumarizace a vytvoření finálního datového souboru |

Příklady k procvičení | Literatura |

Úprava a normalizace dat oligonukleotidových mikročipů |

Výstupy z výukové jednotky | Úvod | AffyBatch - R datová struktura pro oligonukleotidové mikročipy | Kontrola kvality |

Kontrola na úrovni sond | Kontrola na úrovni mikročipů |

Kontrola kvality na základě parametrů Affymetrix | Kontrola kvality s pomocí základních diagnostických grafů | Kontrola kvality na základě modelu úrovně sondy (PLM - probe level model) |

Normalizace a sumarizace |

Normalizace v rámci mikročipu |

MAS 5.0 metoda korekce na pozadí | RMA konvoluce |

Normalizace mezi mikročipy | Sumarizace |

Metody sumarizace v rámci jednoho mikročipu | Metody sumarizace vícečipové |

Příklady k procvičení | Literatura |

Základní schémata statistické analýzy dat |

Výstupy z výukové jednotky | Porovnávání skupin |

Výpočet velikosti účinku | Testování hypotéz u genomických a proteomických dat |

SAM - Significance Analysis of Microarrays | Limma - Linear Models for Analysis of Microarrays |

Praktický příklad analýzy |

Kontrola kvality | Analýza dat |

Objevování skupin |

Konsenzusové shlukování | Dynamické řezání stromu | Praktický příklad analýzy |

Predikce skupin |

Výběr proměnných | Typy klasifikátorů | Odhad výkonnosti klasifikátoru |

Analýza přežití |

Praktický příklad analýzy |

Příklady k procvičení |

Analýza arrayCGH |

Metody analýzy arrayCGH | Princip segmentačních metod | Porovnání metod |

Analýza genových sad |

Databáze genových sad/pathways | Nástroje pro analýzu genových sad |

Příklad metody celého seznamu | Příklad metody dělící hranice | Porovnání metod | Metody smíšené |

Studijní materiály a software |

Analýza dat hmotnostní spektrometrie |

Time-of-flight spektrometrie |

Úprava základních dat |

Liquid Chromatography MS/MS |

Zpracování dat | Databázové vyhledávání | Rekonstrukce sady proteinů |

2D gelová elektroforéza |

DIGE | Úprava dat |

Veřejně dostupné databáze dat |

Analýza sekvencí DNA |

Kvantifikace signálu

Po skenovaní se obrázky obou kanálů microarray sklíčka uloží ve formátě .tiff, který pak vstupuje do programu pro analýzu obrazu, který kvantifikuje signál. Program pro analýzu obrazu je obvykle v softwarové výbavě skeneru.

Kvantifikaci signálu předchází dva kroky, které slouží k identifikaci spotů a pozadí:

Lokalizace center spotů
Segmentace - nalezení spotů, odlišení intensity spotů od pozadí
Kvantifikace signálu – na spotu i na pozadí

Lokalizace center spotů se provede poloautomaticky, pomocí nasazení mřížky. Mřížka (anglicky grid) je speciální datový soubor, který obsahuje informace o rozmístnění spotů a jejich průměru. Normálně jej dodává výrobce cDNA mikročipu, spolu s informací o tom, jakou sekvenci (sondu) každý spot obsahuje.

Tyto informace pak slouží jako vstupní informace pro algoritmus segmentace.

Existuje více algoritmů segmentace, nejčastější jsou

Pevný kruh (anglicky fixed circle) – jednoduše fixně určí spoty na základě informací ze síťky o pozici a průměru spotu, všechny spoty tak mají stejnou velikost. Tento postup je nevhodný v případě spotů odlišného průměru (celkem běžné).
Adaptivní kruh (anglicky adaptive circle) – průměr je odhadován pro každý spot zvlášť. Problematické v případě spotů nekruhového tvaru.
Adaptivní tvar (adaptive shape) – po stanovení středu spotu algoritmus rozšiřuje spot přidáváním nových pixelů na základě porovnání jejich intenzity a průměrné intenzity pixelů v okolí. Dokáže přesně určit i spoty nepravidelného tvaru.
Adaptivní histogram (adaptive histogram) – určí čtvercový region kolem centra spotu, který je větší než spot. Pak na základě histogramu intenzit – kde se předpokládá bimodální rozdělení – identifikuje pixely pozadí (průměr v 5-20 percentilu histogramu) a spotu (průměr cca v 80 percentilu histogramu).

Po segmentaci následuje samotná kvantifikace intenzity fluorescenčního záření (a tedy vlastně intensity pixelů) na pozadí i ve spotu.

Připomeňme si, že celková fluorescence spotu je proporcionální množství hybridizovaných sond na spotu a tedy množství sledované sekvence ve vzorku. U kvantifikace proto rozlišujeme pojem intenzita spotu, který je definován jako součet intenzit pixelů v regionu spotu. Protože ale v dalších analýzách počítáme s poměry intenzit studovaného vzorku (kanál 1) k referenčnímu vzorku (kanál 2), stačí nám vyjádřit intenzitu jako průměr, nebo medián hodnot intenzit pixelů ve spotu. Medián je vhodnější, protože je robustnější k případným chybám v segmentaci, nebo k nepravidelným tvarům spotů (obrázek 3.2).

Obr. 3.2: Vliv kvality spotu na statistiky intenzity signálu.

Kvantifikace intenzity pozadí je motivována předpokladem, že naměřená intenzita spotu zahrnuje také signál nespecifické hybridizace, případně jiných sloučenin na sklíčku – vše představující nežádoucí šum.

Fluorescence regionů, které nejsou okupovány DNA by se měla tedy lišit od fluorescence regionů spotů. V analýze se pak kvantifikovaná hodnota pozadí obvykle odečítá od hodnot signálu (ne vždy, jak si ukážeme později). Protože intenzita pozadí může takto výrazně ovlivnit finální hodnotu signálu (po odečtení), je důležité, aby byla kvantifikace pozadí robustní.

Existují různé metody kvantifikace pozadí:

Lokální metoda (local background)
Morfologické otevření (morphological opening)
Konstantní/globální metoda (constant/global background)

Obr. 3.3: Vizualizace oblastí lokálního odhadu intensity pozadí u tří různých metod analýzy obrazu cDNA mikročipu.

Většina programů pro analýzu obrazu využívá lokální metodu odhadu pozadí. Jejím principem je odhad intenzity jako medián pixelů z malých regionů v okolí spotu. Obrázek 3.3 zobrazuje regiony, které používají tři různé metody. GenePix a QuantArray neberou v úvahu pixely pozadí v úzké blízkosti samotného spotu, a proto jsou méně citlivé k výsledkům segmentačního algoritmu, který může špatně odhadnout hranici spotu.

Metoda morfologického otevření (obrázek 3.4) používá čtvercové elementy o rozměrech několika spotů, ze kterých pak spoty odstraní a vytvoří nový obraz, který je odhadem pozadí celého sklíčka. Pro jednotlivé spoty se pozadí pak odhaduje jako hodnota signálu v centru spotu tohoto nového obrazu. Signál pozadí odhadnut touto metodou je nižší a méně variabilní (robustnější vůči případným lokálním extrémům).

Obr. 3.4: Schematické znázornění metody morfologického otevření pro odhad signálu pozadí cDNA mikročipu.

Výše zmíněné metody operují s odhadem signálu pozadí v okolí spotu. Nicméně, některé studie naznačují, že intenzita signálu na spotu u negativních kontrol (tedy tam, kde jsou sondy pro mRNA jiného organismu, než pro který je sklíčko určeno a kde by tedy nemělo vůbec docházet k hybridizaci se vzorkem) bývá nižší než v okolí spotů. Proto by hodnota pozadí měla být spíše odhadnuta jako konstanta pro všechny spoty (konstantní/globální metoda), nejlépe jako průměr intenzit spotů negativní kontroly. V případě, že tyto kontroly na sklíčku nejsou, doporučuje se signál pozadí odhadnout jako třetí percentil rozdělení signálů všech spotů.

Ne všichni se ale shodují na tom, zda je nutno odečítání pozadí vůbec provádět. Obecně se uznává i postup, při kterém se signál pozadí vůbec neodečítá.

Lokální a globální metoda odečítání pozadí má větší vliv na spoty s nízkou expresí (a tedy nízkým signálem), v porovnání s metodou morfologického otevření nebo bez odečítání, takže u těchto spotů je obtížné rozlišit mezi opravdovým signálem a šumem.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity