E-learningová učebnice

Matematická biologie

Slovník | Vyhledávání | Mapa webu

Analýza genomických a proteomických datAnalýza sekvencí DNA Divergence druhů Supermatice

Analýza genomických a proteomických dat | Analýza sekvencí DNA |

Sekvence |

Základní informace | Výstupy z výukové jednotky |

Genom | Sekvenování genomu |

Polymerázová řetězcová reakce |

Emulzní PCR | Amplifikace na mostech |

Celogenomové sekvenování |

Pyrosekvenování | Sekvenování pomocí syntézy | Iontové polovodičové sekvenování | Sekvenování jedné molekuly DNA |

Sangerovo sekvenování | Sestavení sekvence |

Postup sestavování kontigu | Detekce mutací v kontigu |

Genetické databáze |

Vyhledávání v databázích |

Přístupové číslo sekvence |

Sekvence v GenBance | Stahování sekvencí | Informační zdroje pro proteiny |

BLAST-Vyhledávání podobných sekvencí |

Základní informace | Výstupy z výukové jednotky | Využití blastu | Přístup k blastu | Princip blastu | E-hodnota | Programy blastu |

Nukleotidový blast | Proteínový blast | Blast využívající překlad DNA do sekvence aminokyselin a opačně | Prohledávání specifických databází |

Vícenásobné vyhledávání | Výsledek a interpretace | Taxonomie nebo fylogeneze nalezených záznamů |

Predikce genů a anotace sekvence DNA |

Základní informace | Výstupy z výukové jednotky | Komparativní anotace |

Nejistota v anotaci |

Anotace ab initio - od začátku |

Genomické ostrovy | Otevřený čtecí rámec | Predikce eukaryotických genů | Skrytý markovův model | Modelování začátku intronu | Modelování frekvence kodonů | Predikce jiných RNA molekul |

Příprava sekvence do genetických databází |

Údaje pro vkládání sekvencí |

Alignment |

Základní informace | Výstupy z výukové jednotky | Lokální alignment | Globální alignment | Vícenásobný alignment |

Progresivní alignment | Alignování velkých souborů sekvencí |

Praktické problémy s alignmentem a jejich řešení |

Modelování příbuznosti sekvencí DNA |

Základní informace | Výstupy z výukové jednotky |

Substituční model |

Substituce |

Tranzice a transverze |

Genetické vzdálenosti | Parametry substitučního modelu |

Vektor frekvence bází | Frekvenční matice | Mutační rychlost |

Příklady nejběžnějších substitučních modelů | Heterogenita rychlosti evoluce mezi pozicemi |

Γ rozdělení | Proporce nevariabilních pozic |

Výběr substitučního modelu |

Hierarchický test poměru věrohodností | Akaikovo informační kriterium | Bayesovo informační kritérium |

Inserce a delece |

Metoda nejbližšího souseda |

Základní informace | Výstupy z výukové jednotky | Vstupní údaje pro metodu nejbližšího souseda | Algoritmus NJ shlukování | Výhody a nevýhody NJ metody | Využití NJ metody |

Sestavování vícenásobného alignmentu | Testování substitučního modelu | Vizualizace předběžných výsledků |

Ověření stability uzlů stromu – bootstrap |

Základní informace | Výstupy z výukové jednotky | Algoritmus bootstrapu |

Pseudoreplikace alignmentu | Sumarizace bootstrapu |

Použití bootstrapu |

Fylogenetika |

Základní informace | Výstupy z výukové jednotky |

Čtení fylogenetického stromu |

Fylogenetický strom formálně | Fylogenetický strom intuitivně | Počet možných stromů | Vlastnosti fylogeneze |

Topologie | Vzdálenosti taxonů |

Ancestrální sekvence | Určení kořene stromu | Využití fylogenetické informace |

Maximální věrohodnost |

Věrohodnost (L, likelihood) |

Scenáře ancestrálních stavů |

Krajina stromů | Heuristické vyhledávání |

Záměna nejbližšího souseda | Rozdělení a spojení stromu | Lezení do kopce |

Bayesiánská inference |

Markovovy řetězce Monte Carlo | Efektivita prohledávání krajiny stromů | Priory |

Neinformativní prior |

Autokorelace MCMC | Burnin | Posterior |

Hustota posteriórní pravděpodobnosti |

Diagnostika konvergence |

Divergence druhů |

Oddělení druhů | Supermatice |

Koalescence |

Superstromy |

Supermatice

Vstupní data pro rekonstrukci stromu druhů ze supermatic jsou alignmenty jednotlivých lokusů seřazené za sebou tak, aby jednotlivé sekvence odpovídaly taxonům. Taková sekvence se nazývá spojená sekvence (concatenated). Chybějící sekvence lokusů u některých taxonů bývají v supermatici značené jako chybějící nebo nerozlišené báze (obr.2).

Otázka: Proč není vhodné nejdřív spojit sekvence všech lokusů pro každý druh a až pak je alignovat?

Takový přístup sebou nese riziko, že počátky a konce lokusů nebudou seřazeny podle homologie v rámci lokusu, ale na základě náhodné podobnosti se sousedící sekvencí. Navíc, pokud nejsou k dispozici sekvence všech lokusů pro všechny taxony, spojená sekvence určitě nebude správně zalignovaná s dlouhou delecí v místě chybějícího lokusu.

Kromě nutnosti správně alignovat i spojené sekvence, u kterých chybí některý lokus, je dobré spojovat až alignmenty i při mezidruhové analýze. V genomu se jednotlivé lokusy můžou vyskytovat v různém pořadí, anebo geny můžou být na reverzně komplementárních řetězcích DNA.

Sestavení supermatice je často motivované snahou o využití sekvencí z genetických databází. Spojením sekvencí z několika jedinců vzniká chimerická sekvence (obr. 3) s rizikem, že zveřejněné sekvence mohou patřit k jinému taxonu. Problém se dotýká taxonomických skupin, u kterých je podezření na dosud neodhalenou kryptickou diverzitu.

Spojené a hlavně chimerické sekvence často neobsahují všechny lokusy pro všechny taxony. Sekvence DNA je ale natolik informativní, že umožňuje spolehlivě rekonstruovat fylogenezi i když je procento chybějících dat vysoké, běžně nad 60%.

Analýza supermatice má specifika při definování substitučního modelu. U alignmentu z mnoha genů je pravděpodobné, že jednotlivé geny anebo skupiny genů bude optimálně modelovat jiný substituční model. Supermatice by měla být rozdělena do particí podle volby substitučního modelu. Následná analýza jak metodou ML tak i BI probíhá obdobně jako u genových alignmentů.

Obr. 2: Ukázka supermatice s vysokým procentem chybějících dat. Každý řádek představuje spojenou sekvenci pro jeden taxon. Široké, černé bloky jsou úseky, pro které je k dispozici sekvence DNA. Úzké, černé bloky jsou sekvence s nejasnými rezidui (DNA ambiguity). Bílé bloky jsou indely a chybějící části nebo celé lokusy. Vertikální čáry oddělují jednotlivé alignmenty lokusů. Uvedená supermatice má celkovou délku 9065 bp, skládá se z osmi lokusů, 21 taxonů a obsahuje 67% chybějících dat.

Obr. 3: Spojená sekvence pro jednoho jedince a pro chimerickou sekvenci, kde jednotlivé lokusy patří ke zkoumanému druhu, ale pocházejí z různých jedinců.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity