Analýza genomických a proteomických datAnalýza genomických a proteomických dat Současné výzvy a technologie genomiky a proteomiky Bioinformatika a statistika v analýze genomických a proteomických dat Typy dat a potřeba jejich úpravy

Analýza genomických a proteomických dat |

Současné výzvy a technologie genomiky a proteomiky |

Výstupy z výukové jednotky | Úvod | Moderní technologie analýzy genomu a proteomu a jejich datové výstupy |

Mikročipy | Hmotnostní spektrometrie | 2D gelová elektroforéza | Shrnutí |

Bioinformatika a statistika v analýze genomických a proteomických dat |

Typy dat a potřeba jejich úpravy | Základní kroky analýzy genomických a proteomických dat | Standardy analýzy genomických a proteomických dat | Software pro analýzu |

Příklady k procvičení |

Princip a rozdělení DNA mikročipů |

Analýza obrazu (kvantifikace signálu) DNA mikročipů |

Výstupy z výukové jednotky | Úvod | cDNA mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Oligonukleotidové mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Příklady k procvičení | Literatura |

Úprava a normalizace dat cDNA mikročipů |

Výstupy z výukové jednotky | Úvod | Kontrola kvality |

Kontrola kvality v rámci spotů | Kontrola kvality a normalizace v rámci mikročipu |

Procento nekvalitních měření | Systematické odchylky |

Normalizace cDNA mikročipů a vytvoření finální datové matice |

Normalizace v rámci mikročipu |

Normalizace mezi mikročipy |

Sumarizace a vytvoření finálního datového souboru |

Příklady k procvičení | Literatura |

Úprava a normalizace dat oligonukleotidových mikročipů |

Výstupy z výukové jednotky | Úvod | AffyBatch - R datová struktura pro oligonukleotidové mikročipy | Kontrola kvality |

Kontrola na úrovni sond | Kontrola na úrovni mikročipů |

Kontrola kvality na základě parametrů Affymetrix | Kontrola kvality s pomocí základních diagnostických grafů | Kontrola kvality na základě modelu úrovně sondy (PLM - probe level model) |

Normalizace a sumarizace |

Normalizace v rámci mikročipu |

MAS 5.0 metoda korekce na pozadí | RMA konvoluce |

Normalizace mezi mikročipy | Sumarizace |

Metody sumarizace v rámci jednoho mikročipu | Metody sumarizace vícečipové |

Příklady k procvičení | Literatura |

Základní schémata statistické analýzy dat |

Výstupy z výukové jednotky | Porovnávání skupin |

Výpočet velikosti účinku | Testování hypotéz u genomických a proteomických dat |

SAM - Significance Analysis of Microarrays | Limma - Linear Models for Analysis of Microarrays |

Praktický příklad analýzy |

Kontrola kvality | Analýza dat |

Objevování skupin |

Konsenzusové shlukování | Dynamické řezání stromu | Praktický příklad analýzy |

Predikce skupin |

Výběr proměnných | Typy klasifikátorů | Odhad výkonnosti klasifikátoru |

Analýza přežití |

Praktický příklad analýzy |

Příklady k procvičení |

Analýza arrayCGH |

Metody analýzy arrayCGH | Princip segmentačních metod | Porovnání metod |

Analýza genových sad |

Databáze genových sad/pathways | Nástroje pro analýzu genových sad |

Příklad metody celého seznamu | Příklad metody dělící hranice | Porovnání metod | Metody smíšené |

Studijní materiály a software |

Analýza dat hmotnostní spektrometrie |

Time-of-flight spektrometrie |

Úprava základních dat |

Liquid Chromatography MS/MS |

Zpracování dat | Databázové vyhledávání | Rekonstrukce sady proteinů |

2D gelová elektroforéza |

DIGE | Úprava dat |

Veřejně dostupné databáze dat |

Analýza sekvencí DNA |

Typy dat a potřeba jejich úpravy

Genomické a proteomické experimenty obecně produkují snad všechny známé typy dat.

Relativně nejjednodušší z pohledu analýzy jsou výsledky experimentů klasických metod, které sledují výskyt/absenci genu nebo proteinu ve vzorku, protože se provádí jednoduchým odčítáním a porovnávaním dat binárních (výskyt/absence skvrny na pozici odpovídající hmotnosti hledaného proteinu na gelu u metody Western blotting) nebo binomických (počet buněk s Ph chromozomem detekovaným metodou FISH).

Dojde-li na experimenty, které mají za účel kvantifikovat, narazíme na data kvantitativně poměrová, příkladem může být Ct – počet cyklů potřebných pro dosáhnutí detekovatelného množství – jako jednotka kvantifikace cDNA u real-time PCR.

Mnoho metod kvantifikace genů/proteinů vyžaduje v experimentu přítomnost referenčního vzorku, a to z více důvodů.

Za prvé, doteď bylo mnohem jednodušší měřit množství relativně (vzhledem k výskytu referenčního vzorku) než absolutně, protože absolutní měření vyžaduje speciální citlivé technologie, které byly vyvinuty pouze v posledních letech.

Dále, často není cílem zjistit přesný počet molekul, ale spíše jejich změnu od nějakého referenčního standardu v závislosti na vnějších faktorech. Například nám může stačit poznatek, že u buněk nádoru je několikanásobně zvýšena exprese genů zabezpečujících buněčnou proliferaci oproti buňkám nenádorovým, přičemž nás nezajímá, jaké množství mRNA se ve skutečnosti ve vzorcích nachází.

Příkladem metod měřících absolutně je například digitální PCR (v porovnání s klasickou relativní PCR) nebo sekvenování (v porovnání s mikročipy).

Zatřetí, referenční vzorky mohou sloužit jednak jako kontrola správnosti technického provedení experimentu, pro odstranění šumu (anglicky noise, náhodné hodnoty obvykle technického původu zkreslující měřené hodnoty – signál e.g. exprese genu) z kvantifikovaných dat, ale i pro kalibraci (nazývanou též normalizací), jež představuje transformaci hodnot tak, aby byly porovnatelné mezi vzorky představující jednotlivá měření. Referenční vzorky nemusí v experimentu představovat samostatný vzorek, může se jednat také o tzv. spike-in kontroly – vybrané geny nebo proteiny přimíchané do měřeného vzorku. Z tohoto pohledu rozlišujeme referenční vzorky na:

negativní - u kterých by nemělo být kvantifikováno metodou nic, a je-li, považuje se to za šum přístroje, případně to indikuje jinou chybu v provedení experimentu (například vzorky neobsahující žádnou mRNA, pouze nosnou tekutinu). Bývají v experimentu většinou použity jako samostatný vzorek.
pozitivní – obvykle ve formě spike-in kontroly - u tohoto vzorku se předpokládá silný signál v měření (např. housekeeping geny u PCR – jejich exprese by měla být silná a konstantní, protože udržují základní buněčné funkce dané tkáně)
- kalibrační – speciální poddruh pozitivních referenčních vzorků slouží pro normalizaci výsledků mezi vzorky (například peptidy hemoglobinu se známým m/z jsou vkládány do každého vzorku u SELDI-TOF pro následnou kalibraci profilů)

Všechny vysokopokryvné metody operují s měřením stovek až tisíců genů, a pro kvantifikaci jejich exprese je nutné plošné a automatické strojové a algoritmické zpracování, tím je výskyt nežádoucího šumu v datech ješte více prohlouben a jeho odstranění je kritické.

Referenční vzorky jsou jedna z nejdůležitějších pomůcek pro odstranění šumu, avšak pouhá kalibrace – posunutí středu naměřených hodnot vzhledem k spike-in kontrole, případně transformace naměřených hodnot na poměr k referenčnímu vzorku jsou jen začátkem procesu úprav dat do analyzovatelné podoby.

Z pohledu analytika dostáváme z každého měření vysokopokryvné metody jednu matici dat náležící jednomu vzorku. Můžeme ji zapsat jako X_nxk, kde n je počet genů/proteinů a k je počet různých proměnných, specifických přístroji. Tyto proměnné nemusí představovat pouze kvantifikaci měřené hodnoty, ale také identifikátor genu/proteinu, případně informace o poloze genu/proteinu na sklíčku nebo gelu (relevantní u mikročipů a 2D gelové elektroforézy), nebo také proměnné představující indikátory kvality měření. Tuto datovou matici budeme nazývat základní datová matice.

V každém experimentu je měření provedeno na p vzorcích, proto dostáváme také p základních datových matic.

Cílem úprav dat je získat finální datovou matici Ynxp obsahující pouze kvantifikaci měření, a kde p je počet vzorků a n počet genů/proteinů.

Tato finální datová matice pak vstupuje do analýz, které mají za cíl potvrdit, nebo vyvrátit biologické nebo biomedicínské hypotézy.

V tomto učebním textu si přiblížíme matematické a statistické metody úprav dat, které mají za cíl:

odstranit šum v datech (vybrat a normalizovat hodnoty v rámci vzorku – v rámci základní datové matice)
umožnit porovnání hodnot mezi vzorky (normalizace mezi vzorky – v rámci finální datové matice)

Úpravy dat jsou specifické pro každou metodu, a proto se každé z nich budeme věnovat v samostatné kapitole.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity