E-learningová učebnice

Matematická biologie

Slovník | Vyhledávání | Mapa webu

Analýza genomických a proteomických datAnalýza sekvencí DNA Bayesiánská inference Efektivita prohledávání krajiny stromů

Analýza genomických a proteomických dat | Analýza sekvencí DNA |

Sekvence |

Základní informace | Výstupy z výukové jednotky |

Genom | Sekvenování genomu |

Polymerázová řetězcová reakce |

Emulzní PCR | Amplifikace na mostech |

Celogenomové sekvenování |

Pyrosekvenování | Sekvenování pomocí syntézy | Iontové polovodičové sekvenování | Sekvenování jedné molekuly DNA |

Sangerovo sekvenování | Sestavení sekvence |

Postup sestavování kontigu | Detekce mutací v kontigu |

Genetické databáze |

Vyhledávání v databázích |

Přístupové číslo sekvence |

Sekvence v GenBance | Stahování sekvencí | Informační zdroje pro proteiny |

BLAST-Vyhledávání podobných sekvencí |

Základní informace | Výstupy z výukové jednotky | Využití blastu | Přístup k blastu | Princip blastu | E-hodnota | Programy blastu |

Nukleotidový blast | Proteínový blast | Blast využívající překlad DNA do sekvence aminokyselin a opačně | Prohledávání specifických databází |

Vícenásobné vyhledávání | Výsledek a interpretace | Taxonomie nebo fylogeneze nalezených záznamů |

Predikce genů a anotace sekvence DNA |

Základní informace | Výstupy z výukové jednotky | Komparativní anotace |

Nejistota v anotaci |

Anotace ab initio - od začátku |

Genomické ostrovy | Otevřený čtecí rámec | Predikce eukaryotických genů | Skrytý markovův model | Modelování začátku intronu | Modelování frekvence kodonů | Predikce jiných RNA molekul |

Příprava sekvence do genetických databází |

Údaje pro vkládání sekvencí |

Alignment |

Základní informace | Výstupy z výukové jednotky | Lokální alignment | Globální alignment | Vícenásobný alignment |

Progresivní alignment | Alignování velkých souborů sekvencí |

Praktické problémy s alignmentem a jejich řešení |

Modelování příbuznosti sekvencí DNA |

Základní informace | Výstupy z výukové jednotky |

Substituční model |

Substituce |

Tranzice a transverze |

Genetické vzdálenosti | Parametry substitučního modelu |

Vektor frekvence bází | Frekvenční matice | Mutační rychlost |

Příklady nejběžnějších substitučních modelů | Heterogenita rychlosti evoluce mezi pozicemi |

Γ rozdělení | Proporce nevariabilních pozic |

Výběr substitučního modelu |

Hierarchický test poměru věrohodností | Akaikovo informační kriterium | Bayesovo informační kritérium |

Inserce a delece |

Metoda nejbližšího souseda |

Základní informace | Výstupy z výukové jednotky | Vstupní údaje pro metodu nejbližšího souseda | Algoritmus NJ shlukování | Výhody a nevýhody NJ metody | Využití NJ metody |

Sestavování vícenásobného alignmentu | Testování substitučního modelu | Vizualizace předběžných výsledků |

Ověření stability uzlů stromu – bootstrap |

Základní informace | Výstupy z výukové jednotky | Algoritmus bootstrapu |

Pseudoreplikace alignmentu | Sumarizace bootstrapu |

Použití bootstrapu |

Fylogenetika |

Základní informace | Výstupy z výukové jednotky |

Čtení fylogenetického stromu |

Fylogenetický strom formálně | Fylogenetický strom intuitivně | Počet možných stromů | Vlastnosti fylogeneze |

Topologie | Vzdálenosti taxonů |

Ancestrální sekvence | Určení kořene stromu | Využití fylogenetické informace |

Maximální věrohodnost |

Věrohodnost (L, likelihood) |

Scenáře ancestrálních stavů |

Krajina stromů | Heuristické vyhledávání |

Záměna nejbližšího souseda | Rozdělení a spojení stromu | Lezení do kopce |

Bayesiánská inference |

Markovovy řetězce Monte Carlo | Efektivita prohledávání krajiny stromů | Priory |

Neinformativní prior |

Autokorelace MCMC | Burnin | Posterior |

Hustota posteriórní pravděpodobnosti |

Diagnostika konvergence |

Divergence druhů |

Oddělení druhů | Supermatice |

Koalescence |

Superstromy |

Efektivita prohledávání krajiny stromů

MCMC v každém kroku drobně změní strom a model tak, že postupně stoupá věrohodnost. Tento proces může být velmi pomalý a analýza může zůstat na lokálním maximu (obr.1). Proto každá analýza běží s několika MCMC, které se odlišují teplotou. Jeden MCMC je studený, z něj se ukládají výsledky a dalších několik horkých prohledává krajinu stromů. Teplota řetězce vystihuje, jak často bude akceptovat horší strom s nižší věrohodností – ovlivňuje krok 4 z kapitoly Markovovy řetězce Monte Carlo. Horké řetězce akceptují i stromy s výrazně nižší věrohodností a můžou tak překonávat údolí v krajině stromů mezi lokálními maximy.

mcmcp nchains=4 temp=0.9;

Zároveň ale schopnost horkých řetězců překonávat údolí v krajině stromů znamená, sice dokážou naleznout globální maximum, ale nemusí v něm konvergovat a taky z něj odejdou podobně jak z lokálního maxima. Řetězce by si měly každých několik generací zkusit vyměnit místo. Pokud při takovém porovnání horký řetězec nalezl strom s vysokou věrohodností, tento strom přebírá studený řetězec. Tím se zabezpečí efektivní nalezení globálního maxima věrohodnosti a zároveň konvergence v něm.

mcmcp nswaps=1 swapfreq=2;

Obr. 1: Demonstrace prohledávání krajiny pomocí Markovova řetězce Monte Carlo. Horké řetězce výrazně zefektivňují vyhledávání. Video demonstruje použití programu iMCMC Johna Huelsenbecka (http://cteg.berkeley.edu/software.html#imcmc). Obdobný program pro Windows je MCMCrobot Paula Lewise (http://www.mcmcrobot.org).

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity