Analýza genomických a proteomických datAnalýza sekvencí DNA Predikce genů a anotace sekvence DNA Příprava sekvence do genetických databází Údaje pro vkládání sekvencí

Analýza genomických a proteomických dat | Analýza sekvencí DNA |

Sekvence |

Základní informace | Výstupy z výukové jednotky |

Genom | Sekvenování genomu |

Polymerázová řetězcová reakce |

Emulzní PCR | Amplifikace na mostech |

Celogenomové sekvenování |

Pyrosekvenování | Sekvenování pomocí syntézy | Iontové polovodičové sekvenování | Sekvenování jedné molekuly DNA |

Sangerovo sekvenování | Sestavení sekvence |

Postup sestavování kontigu | Detekce mutací v kontigu |

Genetické databáze |

Vyhledávání v databázích |

Přístupové číslo sekvence |

Sekvence v GenBance | Stahování sekvencí | Informační zdroje pro proteiny |

BLAST-Vyhledávání podobných sekvencí |

Nukleotidový blast | Proteínový blast | Blast využívající překlad DNA do sekvence aminokyselin a opačně | Prohledávání specifických databází |

Vícenásobné vyhledávání | Výsledek a interpretace | Taxonomie nebo fylogeneze nalezených záznamů |

Predikce genů a anotace sekvence DNA |

Základní informace | Výstupy z výukové jednotky | Komparativní anotace |

Nejistota v anotaci |

Anotace ab initio - od začátku |

Příprava sekvence do genetických databází |

Údaje pro vkládání sekvencí |

Alignment |

Progresivní alignment | Alignování velkých souborů sekvencí |

Praktické problémy s alignmentem a jejich řešení |

Modelování příbuznosti sekvencí DNA |

Základní informace | Výstupy z výukové jednotky |

Substituční model |

Substituce |

Tranzice a transverze |

Genetické vzdálenosti | Parametry substitučního modelu |

Vektor frekvence bází | Frekvenční matice | Mutační rychlost |

Příklady nejběžnějších substitučních modelů | Heterogenita rychlosti evoluce mezi pozicemi |

Γ rozdělení | Proporce nevariabilních pozic |

Výběr substitučního modelu |

Hierarchický test poměru věrohodností | Akaikovo informační kriterium | Bayesovo informační kritérium |

Inserce a delece |

Metoda nejbližšího souseda |

Sestavování vícenásobného alignmentu | Testování substitučního modelu | Vizualizace předběžných výsledků |

Ověření stability uzlů stromu – bootstrap |

Základní informace | Výstupy z výukové jednotky | Algoritmus bootstrapu |

Pseudoreplikace alignmentu | Sumarizace bootstrapu |

Použití bootstrapu |

Fylogenetika |

Základní informace | Výstupy z výukové jednotky |

Čtení fylogenetického stromu |

Fylogenetický strom formálně | Fylogenetický strom intuitivně | Počet možných stromů | Vlastnosti fylogeneze |

Topologie | Vzdálenosti taxonů |

Ancestrální sekvence | Určení kořene stromu | Využití fylogenetické informace |

Maximální věrohodnost |

Věrohodnost (L, likelihood) |

Scenáře ancestrálních stavů |

Krajina stromů | Heuristické vyhledávání |

Záměna nejbližšího souseda | Rozdělení a spojení stromu | Lezení do kopce |

Bayesiánská inference |

Markovovy řetězce Monte Carlo | Efektivita prohledávání krajiny stromů | Priory |

Neinformativní prior |

Autokorelace MCMC | Burnin | Posterior |

Hustota posteriórní pravděpodobnosti |

Diagnostika konvergence |

Divergence druhů |

Oddělení druhů | Supermatice |

Koalescence |

Superstromy |

Údaje pro vkládání sekvencí

Každá sekvence má přirazené nasledující údaje:

Autoři sekvence, adresy a kontaktní údaje.
Autoři a název výzkumu, případně publikační údaje, kde se sekvence poprvé objevila.
Anotace genů – počátek, konec, zda je kompletní, na kterém řetězci se gen vyskytuje, translační tabulka, název produktu a genu.

Sequin validuje uvedené údaje, ale na možné chyby v anotaci, jako např. netypické donorové a akceptorové sekvence v intronech, jenom upozorní. Riziko zanesení nesprávných údajů do genetických databází je na uživateli. Při anotacích, ať už komparativních nebo ab initio, by měly být predikce shodné u alespoň dvou třetin testovaných metod. V případě nejistoty by se měly konzistentně používat popisky sekvencí s přiznanou nejistotou, anebo by se na sekvenci neměl sporný úsek anotovat.

Důkazy, že je gen správně anotovaný, které akceptuje genomický prohlížeč Ensembl zahrnují výskyt proteinové sekvence v databáze UniProtKB, sekvence genu je v RefSeq databázi, v GenBance je nachází sekvence mRNA daného genu, sekvenci je možné dohledat v EST databázi.

Některé sekvence mohou obsahovat pseudogeny. Jsou to kopie lokusu, které akumulací mutací ztratili funkci. Znakmi pseudogenů jsou sekvence transkribovaných genů, které se v jednom lokusu vyskytují bez intronů a v jiném je rozdělený na několik exonů, v lokusu převládají repetitivní sekvence anebo dochází k posunu ORF.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity