
Údaje pro vkládání sekvencí
Každá sekvence má přirazené nasledující údaje:
- Autoři sekvence, adresy a kontaktní údaje.
- Autoři a název výzkumu, případně publikační údaje, kde se sekvence poprvé objevila.
- Anotace genů – počátek, konec, zda je kompletní, na kterém řetězci se gen vyskytuje, translační tabulka, název produktu a genu.
Sequin validuje uvedené údaje, ale na možné chyby v anotaci, jako např. netypické donorové a akceptorové sekvence v intronech, jenom upozorní. Riziko zanesení nesprávných údajů do genetických databází je na uživateli. Při anotacích, ať už komparativních nebo ab initio, by měly být predikce shodné u alespoň dvou třetin testovaných metod. V případě nejistoty by se měly konzistentně používat popisky sekvencí s přiznanou nejistotou, anebo by se na sekvenci neměl sporný úsek anotovat.
Důkazy, že je gen správně anotovaný, které akceptuje genomický prohlížeč Ensembl zahrnují výskyt proteinové sekvence v databáze UniProtKB, sekvence genu je v RefSeq databázi, v GenBance je nachází sekvence mRNA daného genu, sekvenci je možné dohledat v EST databázi.
Některé sekvence mohou obsahovat pseudogeny. Jsou to kopie lokusu, které akumulací mutací ztratili funkci. Znakmi pseudogenů jsou sekvence transkribovaných genů, které se v jednom lokusu vyskytují bez intronů a v jiném je rozdělený na několik exonů, v lokusu převládají repetitivní sekvence anebo dochází k posunu ORF.