Analýza genomických a proteomických datAnalýza genomických a proteomických dat Analýza dat hmotnostní spektrometrie Liquid Chromatography MS/MS Databázové vyhledávání

Analýza genomických a proteomických dat |

Současné výzvy a technologie genomiky a proteomiky |

Výstupy z výukové jednotky | Úvod | Moderní technologie analýzy genomu a proteomu a jejich datové výstupy |

Mikročipy | Hmotnostní spektrometrie | 2D gelová elektroforéza | Shrnutí |

Bioinformatika a statistika v analýze genomických a proteomických dat |

Typy dat a potřeba jejich úpravy | Základní kroky analýzy genomických a proteomických dat | Standardy analýzy genomických a proteomických dat | Software pro analýzu |

Příklady k procvičení |

Princip a rozdělení DNA mikročipů |

Analýza obrazu (kvantifikace signálu) DNA mikročipů |

Výstupy z výukové jednotky | Úvod | cDNA mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Oligonukleotidové mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Příklady k procvičení | Literatura |

Úprava a normalizace dat cDNA mikročipů |

Výstupy z výukové jednotky | Úvod | Kontrola kvality |

Kontrola kvality v rámci spotů | Kontrola kvality a normalizace v rámci mikročipu |

Procento nekvalitních měření | Systematické odchylky |

Normalizace cDNA mikročipů a vytvoření finální datové matice |

Normalizace v rámci mikročipu |

Normalizace mezi mikročipy |

Sumarizace a vytvoření finálního datového souboru |

Příklady k procvičení | Literatura |

Úprava a normalizace dat oligonukleotidových mikročipů |

Výstupy z výukové jednotky | Úvod | AffyBatch - R datová struktura pro oligonukleotidové mikročipy | Kontrola kvality |

Kontrola na úrovni sond | Kontrola na úrovni mikročipů |

Kontrola kvality na základě parametrů Affymetrix | Kontrola kvality s pomocí základních diagnostických grafů | Kontrola kvality na základě modelu úrovně sondy (PLM - probe level model) |

Normalizace a sumarizace |

Normalizace v rámci mikročipu |

MAS 5.0 metoda korekce na pozadí | RMA konvoluce |

Normalizace mezi mikročipy | Sumarizace |

Metody sumarizace v rámci jednoho mikročipu | Metody sumarizace vícečipové |

Příklady k procvičení | Literatura |

Základní schémata statistické analýzy dat |

Výstupy z výukové jednotky | Porovnávání skupin |

Výpočet velikosti účinku | Testování hypotéz u genomických a proteomických dat |

SAM - Significance Analysis of Microarrays | Limma - Linear Models for Analysis of Microarrays |

Praktický příklad analýzy |

Kontrola kvality | Analýza dat |

Objevování skupin |

Konsenzusové shlukování | Dynamické řezání stromu | Praktický příklad analýzy |

Predikce skupin |

Výběr proměnných | Typy klasifikátorů | Odhad výkonnosti klasifikátoru |

Analýza přežití |

Praktický příklad analýzy |

Příklady k procvičení |

Analýza arrayCGH |

Metody analýzy arrayCGH | Princip segmentačních metod | Porovnání metod |

Analýza genových sad |

Databáze genových sad/pathways | Nástroje pro analýzu genových sad |

Příklad metody celého seznamu | Příklad metody dělící hranice | Porovnání metod | Metody smíšené |

Studijní materiály a software |

Analýza dat hmotnostní spektrometrie |

Time-of-flight spektrometrie |

Úprava základních dat |

Liquid Chromatography MS/MS |

Zpracování dat | Databázové vyhledávání | Rekonstrukce sady proteinů |

2D gelová elektroforéza |

DIGE | Úprava dat |

Veřejně dostupné databáze dat |

Analýza sekvencí DNA |

Databázové vyhledávání

Po zpracování základních dat (přepočet profilových spekter na čárové a rekalibraci) můžeme přejít k hlavnímu kroku vyhodnocovaní LC-MS/MS dat a sice databázovému vyhledávání. V tomto kroku se naměřené spektra porovnávají s teoretickými spektry odvozenými od známých proteinových sekvencí a získáme tak seznam identifikovaných peptidů, ze kterých pak "seskládáme" proteiny.

Začíname vždy přípravou dat, ve které vybíráme reprezentatívní kvalitní spektra, nebo naopak odstraňujeme ty méně kvalitní. Jednoduchou metodou je výber několika (N) nejlepších (nejsilnějších) signálů z okna o zvolené šířce. Příkladem komplikovanějšího postupu je dekonvoluce signálu a šumu, kdy ve spektrach omezíme přítomnost šumu.

Dále si musíme připravit databázi, proti které budeme prohledávat. Typicky jde o strojový překlad sekvence genů ve všech šesti čtecích rámcích a výběr nejdelšího překladu. Překlady se pak dle zadaných použitých enzymů naštěpí na peptidy.

Ve vlastním prohledávání se ke každému spektru přiřadí jeden nebo více peptidů. Využívají se zde různé skórovácí funkce, prahování (skóre musí byt větší než předem stanovená hodnota) a další nástroje pro kontrolu falešně pozitivních výsledků (decoy databáze, FDR, percolator). Decoy databáze vzniká v zásadě dvěma způsoby: (i)převrácením peptidových sekvencí (od konce k začátku), nebo (ii) vytvořením náhodných sekvencí o podobných parameterch (délka, rozdělení aminokyselin a pod.). Decoy databáze tak představuje náhodou falešnou databázi a slouží ke kontrole FDR (false discovery rate). Shody s decoy databází považujeme za falešně pozitivní a minimální hodnotu skóre peptidů proti původné databázi zvolíme tak, abychom minimalizovali počet falešne pozitivních identifikací.

Dalším nástrojem je Percolator, který ilustruje obrázek níže:

Prvním krokem je prohledání dat proti původní i decoy databázi a výpočet vlastností peptidů (skóre, chyba hmotnosti, intensita, přítomnost modifikací a dalši fyzikálně-chemické vlastnosti). S pomocí metody SVM (Support vecto machines), která vytváří klasifikátor peptidů na pozitivní (shoda s původní databází) a falošně pozitivní (shoda s decoy databází). Klasifikátor nastavuje váhy konkrétních vlastností. Konečné skóre peptidů je pak výsledkem přepočtu původních hodnot s využítím vah ze SVM. Dle našich zkušeností dostávame po použití Percolatora více identifikovaných peptidů.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity