Výstupy z výukové jednotky
Student:
- naplánují alternativní metody, jak v genomické sekvenci najít geny
- zhodnotí míru nejistoty anotace záznamu a vyjádří ji
- využijí nástroje na vyhledávání genů v genomech prokaryotických a eukaryotických organismů
- skombinují nově navržené geny s informacemi z komparativní anotace
- sestaví anotaci sekvence v podobě, ve které se vkládá do genové databáze
- určí problémy při anotaci genů kódujících proteíny a jiné RNA
- zanalyzují složení a strukturu sekvence DNA vzhledem k identifikaci genomických ostrovů a CpG ostrovů
Sekvence DNA složená do kontigů ( Sekvence) anebo celých chromozomů představuje pořadí nukleotidových bazí na jednom řetězci DNA molekuly u daného organizmu. Dalším krokem zpracování sekvence DNA je nalezení a identifikace úseků, o kterých předpokládáme, že nesou specifickou informaci pro funkci anebo představují jiný pojmenovaný úsek DNA (např. konkrétní repetitivní sekvence). Sestavíme takzvanou anotaci sekvence.
Anotace představuje definici počátku a konce konkrétního úseku DNA (lokusu), informaci o tom, co daný úsek představuje a případně jakou má funkci (Obr. 1).
Kde? Lokalizace pro anotaci je vždy konkrétní, ale zároveň nemusí představovat celý gen na dané sekvenci. Nekompletní začátek nebo konec anotovaného úseku se v GenBankovém formátu zápisu sekvence označuje znaménkama a .
Co? Anotovaný úsek má jméno, minimálně ve formě, že se jedná o predikovaný nebo hypotetický protein ( Nejistova v anotaci), případně ribozomální, transferovou nebo jinou malou molekulu RNA.
Poznámka: Při anotování genomické sekvence je nutné rozlišovat mezi genem a jeho produktem. Gen bude sekvence DNA, jeho produkt je konkrétní bílkovina nebo jiná molekula RNA. U protein-kódujících genů je jejich název psaný kurzívou a často představuje zkratku názvu proteinu (např. IRBP). Název proteinu je pak buď zkratka psaná obyčejným písmem (IRBP) anebo vypsané celé jméno konkrétní bílkoviny (bílkovina vážící interfotoreceptor = interphotoreceptor-binding protein).
Vyhledávání úseků pro anotaci probíhá dvojím způsobem. Porovnáním sekvence s již známými anotovanými geny – komparativní anotace. Anebo predikcí genů na nové sekvenci – anotace od začátku, ab initio.