Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza sekvencí DNA Genetické databáze Sekvence v GenBance

Logo Matematická biologie

Sekvence v GenBance

Každá sekvence obsahuje povinné informace, které umožňují její zařazení a zpracování. Kompletní údaje jsou viditelné při zobrazení v GenBank formátu.

  • Popis sekvence (definition) – obsahuje jméno organismu, název genu a specifikaci jedince.
  • Zdroj (source) – v jaké části genomu se sekvence vyskytuje (jaderná, mitochondriální, plasmid) u daného organismu.
  • Organismus (organism) – latinské, binomické jméno a jeho taxonomická linie.
  • Autoři sekvence (authors)
  • Publikace (title, journal) – název odborné publikace a časopis s paginací, kde se sekvence poprvé použila anebo název nepublikovaného projektu, v rámci kterého byla sekvence přečtena.
  • Vlastnosti (features) – obsahují anotaci obsahu sekvence.
    • Detailní informace, které identifikují zdroj (source): organismus, organela, typ molekuly, číslo jedince, poddruh nebo forma.
    • Lokalizace a název pojmenovaných částí sekvence: kódující sekvence (CDS), gen (gene), jiný pojmenovaných úsek (např. doména, repetice).
  • Sekvence (origin) – pořadí nukleotidových bází na jednom řetězci DNA nebo na RNA.

Anotovaná protein-kódující sekvence uvádí i informaci o translační tabulce a otevřeném čtecím rámci, ve kterém se sekvence DNA překládá do sekvence aminokyselin. Přeložený protein je uvedený přímo u sekvence dané kódující oblasti, ale je k němu i přiřazen odkaz na odpovídající záznam v proteinové databázi.

Upozornění: Gen je pojmenovaný úsek sekvence DNA, který má pro buňku určitou funkci, ale může se vyskytovat ve více kopiích. Lokus je sekvence DNA s konkrétní lokalizací v genomu. Může to být gen, ale i jiný úsek, o kterém je známo, kde se nachází i když ne jeho funkce. Např. krátké tandemové repetice (mikrosatelitní  markery) většinou nemají známou funkci, ale využívají se pro populační studie nebo určování otcovství.

Nukleotidová databáze (Nucleotide) je jenom jednou z mnoha genetických databází v GenBance. Další obsahují navazující údaje (publikace – PubMed, aminokyselinové sekvence – Protein), údaje získané z jiných typů dat (genotypování polymorfismů – SNP, informace k testům geneticky podmíněných nemocí – GTR, krátké exprimované sekvence RNA – EST) nebo souhrnné informace (souhrn dat o genu z genetických databází – Gene, známé informace o genech u člověka – OMIM).

Genomické sekvence představují celou známou informaci o konkrétním genomu, která může mít délku řádově od 105 bp u virů, plasmidů nebo cytoplasmatických genomů po 109 u dlouhých chromosomů. V GenBance jsou genomické sekvence dostupné přes několik databází v závislosti na charakteru dat a jejich zpracování. Kompletně sestavena sekvence genomu je uvedena v databázi Genome, postupně zpracovávaná sekvence z kontigů nebo superkontigů bývá v databázi Assembly. Údaje o genomických sekvencích bývají publikovány rychle, i bez důsledného bioinformatického zpracování a takové projekty je možné dohledat přes BioProject a BioSample databáze. Přímo nezpracovaná data jsou pak ve WGS nebo Trace Archive databázích.

Robustní možnosti prohlížení genomických sekvencí poskytuje prohlížeč Ensembl (http://www.ensembl.org). Výchozí stránka uvádí genomy modelových obratlovců, ale poskytuje i odkaz na Ensembl prohlížeč pro genomy dalších taxonomických skupin. Ensembl prohlížeč klade důraz na dodatečné informace o genomické sekvenci, jako jsou např. pokrytí daného úseku, nebo důkazy o transkripci exonů a alternativním slicingu. Silnou stránkou prohlížeče Ensembl je možnost základních komparativních studií přímo v prohlížeči, kde se zobrazí ortology daného genomického úseku u jiných organismů i paralogy – kopie genů v genomu, případně genové rodiny.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity