Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza sekvencí DNA Predikce genů a anotace sekvence DNA Výstupy z výukové jednotky

Logo Matematická biologie

Výstupy z výukové jednotky

Student:

  • naplánují alternativní metody, jak v genomické sekvenci najít geny
  • zhodnotí míru nejistoty anotace záznamu a vyjádří ji
  • využijí nástroje na vyhledávání genů v genomech prokaryotických a eukaryotických organismů
  • skombinují nově navržené geny s informacemi z komparativní anotace
  • sestaví anotaci sekvence v podobě, ve které se vkládá do genové databáze
  • určí problémy při anotaci genů kódujících proteíny a jiné RNA
  • zanalyzují složení a strukturu sekvence DNA vzhledem k identifikaci genomických ostrovů a CpG ostrovů

Sekvence DNA složená do kontigů ( Sekvence) anebo celých chromozomů představuje pořadí nukleotidových bazí na jednom řetězci DNA molekuly u daného organizmu. Dalším krokem zpracování sekvence DNA je nalezení a identifikace úseků, o kterých předpokládáme, že nesou specifickou informaci pro funkci anebo představují jiný pojmenovaný úsek DNA (např. konkrétní repetitivní sekvence). Sestavíme takzvanou anotaci sekvence.

Anotace představuje definici počátku a konce konkrétního úseku DNA (lokusu), informaci o tom, co daný úsek představuje a případně jakou má funkci (Obr. 1). 

Kde? Lokalizace pro anotaci je vždy konkrétní, ale zároveň nemusí představovat celý gen na dané sekvenci. Nekompletní začátek nebo konec anotovaného úseku se v GenBankovém formátu zápisu sekvence označuje znaménkama a .

Co? Anotovaný úsek má jméno, minimálně ve formě, že se jedná o predikovaný nebo hypotetický protein ( Nejistova v anotaci), případně ribozomální, transferovou nebo jinou malou molekulu RNA.

Poznámka: Při anotování genomické sekvence je nutné rozlišovat mezi genem a jeho produktem. Gen bude sekvence DNA, jeho produkt je konkrétní bílkovina nebo jiná molekula RNA. U protein-kódujících genů je jejich název psaný kurzívou a často představuje zkratku názvu proteinu (např. IRBP). Název proteinu je pak buď zkratka psaná obyčejným písmem (IRBP) anebo vypsané celé jméno konkrétní bílkoviny (bílkovina vážící interfotoreceptor = interphotoreceptor-binding protein).

Vyhledávání úseků pro anotaci probíhá dvojím způsobem. Porovnáním sekvence s již známými anotovanými geny – komparativní anotace. Anebo predikcí genů na nové sekvenci – anotace od začátku, ab initio.

FEATURES             Location/Qualifiers
     source          1..5686
                     /organism="Escherichia coli O26:H11 str. 11368"
                     /mol_type="genomic DNA"
                     /strain="11368"
                     /serovar="O26:H11"
                     /db_xref="taxon:573235"
                     /plasmid="pO26_3"
                     /note="enteropathogenic Escherichia coli"
     gene            3..140
                     /locus_tag="ECO26_p3-1"
                     /db_xref="GeneID:8470643"
     CDS             3..140
                     /locus_tag="ECO26_p3-1"
                     /codon_start=1
                     /transl_table=11
                     /product="putative mobilization protein 1"
                     /protein_id="YP_003232550.1"
                     /db_xref="GI:260751829"
                     /db_xref="GeneID:8470643"
                     /translation="MSEVFTVIPETCEAAAVKLIGVVVKRFTDICLFICVQFVKFLQQ
                     R"
     gene            complement(6..197)
                     /locus_tag="ECO26_p3-2"
                     /db_xref="GeneID:8470638"
     CDS             complement(6..197)
                     /locus_tag="ECO26_p3-2"
                    Obr. 1: Příklad anotace u sekvence NC_013363.
 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity