Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza genomických a proteomických dat Analýza dat hmotnostní spektrometrie Liquid Chromatography MS/MS Rekonstrukce sady proteinů

Logo Matematická biologie

Rekonstrukce sady proteinů

Podobně jako u sekvencovaní nové generace, kde z jednotlivých sekvenci odhadujeme abundance génu i u LC-MS/MS je jedním z kroku spracování dat sestavení sady proteinů identifikovaných z naměřených peptidů. Obecně jde o velice komplikovaný proces. Lze ho přirovnat ke skládání puzzle. Naše skládačka ale obsahuje tisíce kousků pomíchaných s kousky z jiných skládaček. Mnoho kousků je poničených nebo úplně chybí. Hodně jich je stejných a mnoho z nich pasuje na stejná místa. Složitost take ilustruje obrázek:

 

Představíme si nyní několik vybraných přístupů:

Nejjednodušším je N-peptidové pravidlo: Za proteiny přítomné ve vzorku považujeme ty, u kterých jsme naměřili alespoň N peptidů. Problémem je vysoká falešná positivita, kdy při nízkém N můžeme obsáhnout i celý proteom daného organizmu, což často není žádoucí.

Komplikovanější postupy (ProteinProphet, Nested mixtures, Fido a jiné) využívají pravděpodobnosti idenfikace jednotlivých peptidů a vrací také pravděpodobnost identifikace proteinů. Kromě pravděpodobnostních přístupu se u těchto metod často využívají principy parsimonie a Occamovy břitvy - t.j. hledá se nejmenší sada proteinů složených ze všech identifikovaných peptidů. Důsledkem je ale falešná negativita výsledků, kdy ve výsledku chybí protein přítomen ve vzorku v důsledku "chybějících kousků skládanky".

Princip těchto metod si ukážeme na obrázku níže:

  • A: Nejdříve se vytvoří bipartitní graf: peptidy zde představují možné proteiny.
  • B: Poté se sloučí proteiny a peptidy do skupin.
  • C: Poté se skupiny rozdělí, aby byly dostatečně čitelné.
  • D: Na závěr se vybere minimální sada proteinů.
    • V první skupině je vybrán pouze jenom protein pro1, protože sám obsahuje sekvence všech peptidů pep3,pep4,pep7,pep8,pep9. Ve druhé skupině musíme vybrat proteinové skupiny dvě: pro4,9 kvůli pep10. Tím máme zahrnutý i pep2. Chybí pep6, který by mohl pocházet z pro3 i pro6. Protože z pro6 pozorujeme 2 peptidy zvolíme teto protein. Poslední skupina je jednoduchá.

 

 

Co se stane s identifikovanými proteiny závisí hlavně na našem původním experimentu. Typicky ale následuje doplnění anotace proteinů z databáze (GO, KEGG, TAIR) a použití metod analýzy genových sad.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity