Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza sekvencí DNA Predikce genů a anotace sekvence DNA Komparativní anotace

Logo Matematická biologie

Komparativní anotace

Mechanismus komparativní anotace je založený na prohledávání genetických databází pomocí blastu ( Blast). Pokud jsou nalezené sekvence (hits) dostatečně podobné zájmové sekvenci (query), anotované úseky z nalezených sekvencí se můžou použít pro anotaci nové sekvence. Ideálně by měli být při komparativní anotaci přísně nastaveny hraniční hodnoty (threshold) prohledávání u míry shody s nalezenou sekvencí (max ident), překrytí sekvencí (query coverage) a E-hodnoty (E-value).

Otázka: Jaký výsledek můžeme očekávat pokud budeme vyhledávat blastem podobné sekvence pro celý chromozom?

Nalezené zřejmě budou jenom kompletní sekvence daného chromozomu u stejného nebo blízko příbuzného druhu. Anebo nalezené sekvence budou tvořit se zájmovou sekvencí lokální alignment jenom na krátkém úseku chromozomu.

Otázka: Proč?

U velmi dlouhých sekvencí je možné očekávat jiné pořadí genů a u vzdáleně příbuzných organizmů i přítomnost různých genů. Dlouhé sekvence by se pro optimální výsledek měli prohledávat rozdělené na kratší úseky.

Pokus o komparativní anotaci má velký význam u modelových organizmů a jejich blízkých příbuzných, pro které je v databázích k dispozici množství kvalitně (v rámci možností) zpracovaných sekvencí. U nemodelových organizmů má komparativní anotace taky informativní význam, ale s částečně modifikovaným přístupem. Zájmová sekvence by měla být rozdělena na kratší úseky (řádově asi 104 až 105 bp), které se částečně překrývají (klouzavé okno – sliding window). Před anotováním nalezených homologických úseků by měly být nalezené homologie co nejdůvěryhodněji ověřené. Např. překlad potenciální anotace do sekvence aminokyselin by měl v proteinových databázích (UniProtKB, Swissprot, Pfam) odpovídat anotaci z nalezeného záznamu.

Ideální ověření anotací ale představuje laboratorní experiment, při kterém se osekvenují molekuly RNA přítomné v živých buňkách. Zjistí se tak, že daný gen je v buňce aktivní a překládá se do RNA. V genetických databázích jsou taková data ukládána do databáze EST (expressed sequence tags database), anebo se v nukleotidové databáze vyskytují s poznámkou, že se jedná o osekvenovanou molekulu RNA, nejčastěji mRNA. Samozřejmě, buňky využívají různé geny v různých fázích růstu a životních podmínkách a tak je tato metoda limitované variabilitou života. To je ale základní problém celé biologie, kde živý organizmus, aby přežil, nemusí být skvělý, ale jenom dost dobře fungující v daném momentě.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity