Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza genomických a proteomických dat Současné výzvy a technologie genomiky a proteomiky Bioinformatika a statistika v analýze genomických a proteomických dat Typy dat a potřeba jejich úpravy

Logo Matematická biologie

Typy dat a potřeba jejich úpravy

Genomické a proteomické experimenty obecně produkují snad všechny známé typy dat.  

Relativně nejjednodušší z pohledu analýzy jsou výsledky experimentů klasických metod, které sledují výskyt/absenci genu nebo proteinu ve vzorku, protože se provádí jednoduchým odčítáním a porovnávaním dat binárních (výskyt/absence skvrny na pozici odpovídající hmotnosti hledaného proteinu na gelu u metody Western blotting) nebo binomických (počet buněk s Ph chromozomem detekovaným metodou FISH). 

Dojde-li na experimenty, které mají za účel kvantifikovat, narazíme na data kvantitativně poměrová, příkladem může být Ct – počet cyklů potřebných pro dosáhnutí detekovatelného množství – jako jednotka kvantifikace cDNA u real-time PCR.

Mnoho metod kvantifikace genů/proteinů vyžaduje v experimentu přítomnost referenčního vzorku, a to z více důvodů.

Za prvé, doteď bylo mnohem jednodušší měřit množství relativně (vzhledem k výskytu referenčního vzorku) než absolutně, protože absolutní měření vyžaduje speciální citlivé technologie, které byly vyvinuty pouze v posledních letech.

Dále, často není cílem zjistit přesný počet molekul, ale spíše jejich změnu od nějakého referenčního standardu v závislosti na vnějších faktorech. Například nám může stačit poznatek, že u buněk nádoru je několikanásobně zvýšena exprese genů zabezpečujících buněčnou proliferaci oproti buňkám nenádorovým, přičemž nás nezajímá, jaké množství mRNA se ve skutečnosti ve vzorcích nachází.

Příkladem metod měřících absolutně je například digitální PCR (v porovnání s klasickou relativní PCR) nebo sekvenování (v porovnání s mikročipy).

Zatřetí, referenční vzorky mohou sloužit jednak jako kontrola správnosti technického provedení experimentu, pro odstranění šumu (anglicky noise, náhodné hodnoty obvykle technického původu zkreslující měřené hodnoty – signál e.g. exprese genu) z kvantifikovaných dat, ale i pro kalibraci (nazývanou též normalizací), jež představuje transformaci hodnot tak, aby byly porovnatelné mezi vzorky představující jednotlivá měření. Referenční vzorky nemusí v experimentu představovat samostatný vzorek, může se jednat také o tzv. spike-in kontroly – vybrané geny nebo proteiny přimíchané do měřeného vzorku.  Z tohoto pohledu rozlišujeme referenční vzorky na:

  • negativní - u kterých by nemělo být kvantifikováno metodou nic, a je-li, považuje se to za šum přístroje, případně to indikuje jinou chybu v provedení experimentu (například vzorky neobsahující žádnou mRNA, pouze nosnou tekutinu). Bývají v experimentu většinou použity jako samostatný vzorek.
  • pozitivní – obvykle ve formě spike-in kontroly - u tohoto vzorku se předpokládá silný signál v měření (např. housekeeping geny u PCR – jejich exprese by měla být silná a konstantní, protože udržují základní buněčné funkce dané tkáně)
    • kalibrační – speciální poddruh pozitivních referenčních vzorků slouží pro normalizaci výsledků mezi vzorky (například peptidy hemoglobinu se známým m/z jsou vkládány do každého vzorku u SELDI-TOF pro následnou kalibraci profilů)

Všechny vysokopokryvné metody operují s měřením stovek až tisíců genů, a pro kvantifikaci jejich exprese je nutné plošné a automatické strojové a algoritmické zpracování, tím je výskyt nežádoucího šumu v datech ješte více prohlouben a jeho odstranění je kritické.

Referenční vzorky jsou jedna z nejdůležitějších pomůcek pro odstranění šumu, avšak pouhá kalibrace – posunutí středu naměřených hodnot vzhledem k spike-in kontrole, případně transformace naměřených hodnot na poměr k referenčnímu vzorku jsou jen začátkem procesu úprav dat do analyzovatelné podoby.

Z pohledu analytika dostáváme z každého měření vysokopokryvné metody jednu matici dat náležící jednomu vzorku.  Můžeme ji zapsat jako Xnxk, kde n je počet genů/proteinů a k je počet různých proměnných, specifických přístroji. Tyto proměnné nemusí představovat pouze kvantifikaci měřené hodnoty, ale také identifikátor genu/proteinu, případně informace o poloze genu/proteinu na sklíčku nebo gelu (relevantní u mikročipů a 2D gelové elektroforézy), nebo také proměnné představující indikátory kvality měření. Tuto datovou matici budeme nazývat základní datová matice.

V každém experimentu je měření provedeno na p vzorcích, proto dostáváme také p základních datových matic.

Cílem úprav dat je získat finální datovou matici Ynxp obsahující pouze kvantifikaci měření, a kde p je počet vzorků a n počet genů/proteinů.

Tato finální datová matice pak vstupuje do analýz, které mají za cíl potvrdit, nebo vyvrátit biologické nebo biomedicínské hypotézy.

V tomto učebním textu si přiblížíme matematické a statistické metody úprav dat, které mají za cíl:

  1. odstranit šum v datech (vybrat a normalizovat hodnoty v rámci vzorku – v rámci základní datové matice)
  2. umožnit porovnání hodnot mezi vzorky (normalizace mezi vzorky – v rámci finální datové matice)

Úpravy dat jsou specifické pro každou metodu, a proto se každé z nich budeme věnovat v samostatné kapitole.

 

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity