Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza sekvencí DNA Predikce genů a anotace sekvence DNA Anotace ab initio - od začátku

Logo Matematická biologie

Anotace ab initio - od začátku

Anotace od začátku vyhledává a pojmenovává úseky genomu, které kódují funkční produkt – gen. Geny můžou kódovat bílkoviny; přímo mRNA; anebo jiné molekuly RNA. Na vyhledávání každého takového typu genu se používají odlišné algoritmy, které jsou specifické pro charakter sekvence kódující různé RNA molekuly. Jsou založené na vyhledávání určitého obsahu sekvence (content sensor) anebo specifického signálu (signal sensor). Oba přístupy se kombinují tak, aby se zvýšila přesnost a správnost predikce.

Sensory obsahu sekvence předpokládají, že kódující sekvence DNA má odlišné složení od nekódující DNA. Vzhledem ke zbytku genomu mívají kódující sekvence vyšší obsah guaninu a cytozinu (GC content). Jev se vysvětluje tím, že molekula DNA s vyšším obsahem G a C je termostabilnější; genetický kód definuje stop kodony s vysokým obsahem T a A, takže v nekódujících oblastech by se podobné sekvence mohli vyskytovat častěji; anebo metylací DNA, kdy se na cytozin sousedící s guaninem v neaktivních oblastech genomu často váže metylová skupina a metylovaný cytozin snadno mutuje na tymin. Podobný princip může být patrný i u výskytu di- a trinukleotidů (dinucleotide and codon bias), které se v kódujících sekvencích nacházejí v jiné frekvenci než ve zbytku genomu.

Příkladem odlišné frekvence dinukleotidů v různých oblastech genomu jsou právě CpG ostrovy, nebo-li isochory. Tyto dinukleotidy (zkratka značí cytozin-fosfát-guanin, aby se konkrétní dinukleotid odlišil od obsahu guaninu a cytozinu v sekvenci) se podílejí na regulaci exprese genů. Vyskytují se často v promoterech a pokud v oblasti promoteru dochází k DNA metylaci, exprese genu se snižuje. Navázání metylové skupiny na cytozin sousedící s guaninem jakoby vypíná geny a umožňuje např. specializaci buněk. Jenomže pokud metylovaný cytozin deaminací zmutuje na tymin, promoterové sekvence budou částečně poškozené. Organizmy s mutovanými sekvencemi v promoterech můžou hůře přežívat, co se na sekvencích projeví zdánlivě nižší frekvencí mutací v dané oblasti. Pro predikci genů je důležité, že v kódujících oblastech se dinukleotid CpG bude vyskytovat častěji než jinde v genomu, kde jej bude nahrazovat TpG.

Sensory signálu vyhledávají konkrétní sekvenci, o které předpokládáme, že se bude vyskytovat ve funkčním genu. Typickým signálem je start (ATG) a stop kodon (TAA, TGA, TAG), nebo konkrétní sekvence, které se vyskytují v promoterech a v úsecích, kde se mRNA váže na ribozom (TATA box, Pribnowova sekvence, Shine-Dalgarnova sekvence).

 

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity