Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza sekvencí DNA Predikce genů a anotace sekvence DNA Příprava sekvence do genetických databází Údaje pro vkládání sekvencí

Logo Matematická biologie

Údaje pro vkládání sekvencí

Každá sekvence má přirazené nasledující údaje:

  • Autoři sekvence, adresy a kontaktní údaje.
  • Autoři a název výzkumu, případně publikační údaje, kde se sekvence poprvé objevila.
  • Anotace genů – počátek, konec, zda je kompletní, na kterém řetězci se gen vyskytuje, translační tabulka, název produktu a genu.

Sequin validuje uvedené údaje, ale na možné chyby v anotaci, jako např. netypické donorové a akceptorové sekvence v intronech, jenom upozorní. Riziko zanesení nesprávných údajů do genetických databází je na uživateli. Při anotacích, ať už komparativních nebo ab initio, by měly být predikce shodné u alespoň dvou třetin testovaných metod. V případě nejistoty by se měly konzistentně používat popisky sekvencí s přiznanou nejistotou, anebo by se na sekvenci neměl sporný úsek anotovat.

Důkazy, že je gen správně anotovaný, které akceptuje genomický prohlížeč Ensembl zahrnují výskyt proteinové sekvence v databáze UniProtKB, sekvence genu je v RefSeq databázi, v GenBance je nachází sekvence mRNA daného genu, sekvenci je možné dohledat v EST databázi.

Některé sekvence mohou obsahovat pseudogeny. Jsou to kopie lokusu, které akumulací mutací ztratili funkci. Znakmi pseudogenů jsou sekvence transkribovaných genů, které se v jednom lokusu vyskytují bez intronů a v jiném je rozdělený na několik exonů, v lokusu převládají repetitivní sekvence anebo dochází k posunu ORF.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity