Analýza genomických a proteomických datAnalýza genomických a proteomických dat Analýza dat hmotnostní spektrometrie Liquid Chromatography MS/MS Rekonstrukce sady proteinů

Analýza genomických a proteomických dat |

Současné výzvy a technologie genomiky a proteomiky |

Výstupy z výukové jednotky | Úvod | Moderní technologie analýzy genomu a proteomu a jejich datové výstupy |

Mikročipy | Hmotnostní spektrometrie | 2D gelová elektroforéza | Shrnutí |

Bioinformatika a statistika v analýze genomických a proteomických dat |

Typy dat a potřeba jejich úpravy | Základní kroky analýzy genomických a proteomických dat | Standardy analýzy genomických a proteomických dat | Software pro analýzu |

Příklady k procvičení |

Princip a rozdělení DNA mikročipů |

Analýza obrazu (kvantifikace signálu) DNA mikročipů |

Výstupy z výukové jednotky | Úvod | cDNA mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Oligonukleotidové mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Příklady k procvičení | Literatura |

Úprava a normalizace dat cDNA mikročipů |

Výstupy z výukové jednotky | Úvod | Kontrola kvality |

Kontrola kvality v rámci spotů | Kontrola kvality a normalizace v rámci mikročipu |

Procento nekvalitních měření | Systematické odchylky |

Normalizace cDNA mikročipů a vytvoření finální datové matice |

Normalizace v rámci mikročipu |

Normalizace mezi mikročipy |

Sumarizace a vytvoření finálního datového souboru |

Příklady k procvičení | Literatura |

Úprava a normalizace dat oligonukleotidových mikročipů |

Výstupy z výukové jednotky | Úvod | AffyBatch - R datová struktura pro oligonukleotidové mikročipy | Kontrola kvality |

Kontrola na úrovni sond | Kontrola na úrovni mikročipů |

Kontrola kvality na základě parametrů Affymetrix | Kontrola kvality s pomocí základních diagnostických grafů | Kontrola kvality na základě modelu úrovně sondy (PLM - probe level model) |

Normalizace a sumarizace |

Normalizace v rámci mikročipu |

MAS 5.0 metoda korekce na pozadí | RMA konvoluce |

Normalizace mezi mikročipy | Sumarizace |

Metody sumarizace v rámci jednoho mikročipu | Metody sumarizace vícečipové |

Příklady k procvičení | Literatura |

Základní schémata statistické analýzy dat |

Výstupy z výukové jednotky | Porovnávání skupin |

Výpočet velikosti účinku | Testování hypotéz u genomických a proteomických dat |

SAM - Significance Analysis of Microarrays | Limma - Linear Models for Analysis of Microarrays |

Praktický příklad analýzy |

Kontrola kvality | Analýza dat |

Objevování skupin |

Konsenzusové shlukování | Dynamické řezání stromu | Praktický příklad analýzy |

Predikce skupin |

Výběr proměnných | Typy klasifikátorů | Odhad výkonnosti klasifikátoru |

Analýza přežití |

Praktický příklad analýzy |

Příklady k procvičení |

Analýza arrayCGH |

Metody analýzy arrayCGH | Princip segmentačních metod | Porovnání metod |

Analýza genových sad |

Databáze genových sad/pathways | Nástroje pro analýzu genových sad |

Příklad metody celého seznamu | Příklad metody dělící hranice | Porovnání metod | Metody smíšené |

Studijní materiály a software |

Analýza dat hmotnostní spektrometrie |

Time-of-flight spektrometrie |

Úprava základních dat |

Liquid Chromatography MS/MS |

Zpracování dat | Databázové vyhledávání | Rekonstrukce sady proteinů |

2D gelová elektroforéza |

DIGE | Úprava dat |

Veřejně dostupné databáze dat |

Analýza sekvencí DNA |

Rekonstrukce sady proteinů

Podobně jako u sekvencovaní nové generace, kde z jednotlivých sekvenci odhadujeme abundance génu i u LC-MS/MS je jedním z kroku spracování dat sestavení sady proteinů identifikovaných z naměřených peptidů. Obecně jde o velice komplikovaný proces. Lze ho přirovnat ke skládání puzzle. Naše skládačka ale obsahuje tisíce kousků pomíchaných s kousky z jiných skládaček. Mnoho kousků je poničených nebo úplně chybí. Hodně jich je stejných a mnoho z nich pasuje na stejná místa. Složitost take ilustruje obrázek:

Představíme si nyní několik vybraných přístupů:

Nejjednodušším je N-peptidové pravidlo: Za proteiny přítomné ve vzorku považujeme ty, u kterých jsme naměřili alespoň N peptidů. Problémem je vysoká falešná positivita, kdy při nízkém N můžeme obsáhnout i celý proteom daného organizmu, což často není žádoucí.

Komplikovanější postupy (ProteinProphet, Nested mixtures, Fido a jiné) využívají pravděpodobnosti idenfikace jednotlivých peptidů a vrací také pravděpodobnost identifikace proteinů. Kromě pravděpodobnostních přístupu se u těchto metod často využívají principy parsimonie a Occamovy břitvy - t.j. hledá se nejmenší sada proteinů složených ze všech identifikovaných peptidů. Důsledkem je ale falešná negativita výsledků, kdy ve výsledku chybí protein přítomen ve vzorku v důsledku "chybějících kousků skládanky".

Princip těchto metod si ukážeme na obrázku níže:

A: Nejdříve se vytvoří bipartitní graf: peptidy zde představují možné proteiny.
B: Poté se sloučí proteiny a peptidy do skupin.
C: Poté se skupiny rozdělí, aby byly dostatečně čitelné.
D: Na závěr se vybere minimální sada proteinů.
- V první skupině je vybrán pouze jenom protein pro1, protože sám obsahuje sekvence všech peptidů pep3,pep4,pep7,pep8,pep9. Ve druhé skupině musíme vybrat proteinové skupiny dvě: pro4,9 kvůli pep10. Tím máme zahrnutý i pep2. Chybí pep6, který by mohl pocházet z pro3 i pro6. Protože z pro6 pozorujeme 2 peptidy zvolíme teto protein. Poslední skupina je jednoduchá.

Co se stane s identifikovanými proteiny závisí hlavně na našem původním experimentu. Typicky ale následuje doplnění anotace proteinů z databáze (GO, KEGG, TAIR) a použití metod analýzy genových sad.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity