E-learningová učebnice

Matematická biologie

Slovník | Vyhledávání | Mapa webu

Analýza genomických a proteomických datAnalýza sekvencí DNA Bayesiánská inference Diagnostika konvergence

Analýza genomických a proteomických dat | Analýza sekvencí DNA |

Sekvence |

Základní informace | Výstupy z výukové jednotky |

Genom | Sekvenování genomu |

Polymerázová řetězcová reakce |

Emulzní PCR | Amplifikace na mostech |

Celogenomové sekvenování |

Pyrosekvenování | Sekvenování pomocí syntézy | Iontové polovodičové sekvenování | Sekvenování jedné molekuly DNA |

Sangerovo sekvenování | Sestavení sekvence |

Postup sestavování kontigu | Detekce mutací v kontigu |

Genetické databáze |

Vyhledávání v databázích |

Přístupové číslo sekvence |

Sekvence v GenBance | Stahování sekvencí | Informační zdroje pro proteiny |

BLAST-Vyhledávání podobných sekvencí |

Základní informace | Výstupy z výukové jednotky | Využití blastu | Přístup k blastu | Princip blastu | E-hodnota | Programy blastu |

Nukleotidový blast | Proteínový blast | Blast využívající překlad DNA do sekvence aminokyselin a opačně | Prohledávání specifických databází |

Vícenásobné vyhledávání | Výsledek a interpretace | Taxonomie nebo fylogeneze nalezených záznamů |

Predikce genů a anotace sekvence DNA |

Základní informace | Výstupy z výukové jednotky | Komparativní anotace |

Nejistota v anotaci |

Anotace ab initio - od začátku |

Genomické ostrovy | Otevřený čtecí rámec | Predikce eukaryotických genů | Skrytý markovův model | Modelování začátku intronu | Modelování frekvence kodonů | Predikce jiných RNA molekul |

Příprava sekvence do genetických databází |

Údaje pro vkládání sekvencí |

Alignment |

Základní informace | Výstupy z výukové jednotky | Lokální alignment | Globální alignment | Vícenásobný alignment |

Progresivní alignment | Alignování velkých souborů sekvencí |

Praktické problémy s alignmentem a jejich řešení |

Modelování příbuznosti sekvencí DNA |

Základní informace | Výstupy z výukové jednotky |

Substituční model |

Substituce |

Tranzice a transverze |

Genetické vzdálenosti | Parametry substitučního modelu |

Vektor frekvence bází | Frekvenční matice | Mutační rychlost |

Příklady nejběžnějších substitučních modelů | Heterogenita rychlosti evoluce mezi pozicemi |

Γ rozdělení | Proporce nevariabilních pozic |

Výběr substitučního modelu |

Hierarchický test poměru věrohodností | Akaikovo informační kriterium | Bayesovo informační kritérium |

Inserce a delece |

Metoda nejbližšího souseda |

Základní informace | Výstupy z výukové jednotky | Vstupní údaje pro metodu nejbližšího souseda | Algoritmus NJ shlukování | Výhody a nevýhody NJ metody | Využití NJ metody |

Sestavování vícenásobného alignmentu | Testování substitučního modelu | Vizualizace předběžných výsledků |

Ověření stability uzlů stromu – bootstrap |

Základní informace | Výstupy z výukové jednotky | Algoritmus bootstrapu |

Pseudoreplikace alignmentu | Sumarizace bootstrapu |

Použití bootstrapu |

Fylogenetika |

Základní informace | Výstupy z výukové jednotky |

Čtení fylogenetického stromu |

Fylogenetický strom formálně | Fylogenetický strom intuitivně | Počet možných stromů | Vlastnosti fylogeneze |

Topologie | Vzdálenosti taxonů |

Ancestrální sekvence | Určení kořene stromu | Využití fylogenetické informace |

Maximální věrohodnost |

Věrohodnost (L, likelihood) |

Scenáře ancestrálních stavů |

Krajina stromů | Heuristické vyhledávání |

Záměna nejbližšího souseda | Rozdělení a spojení stromu | Lezení do kopce |

Bayesiánská inference |

Markovovy řetězce Monte Carlo | Efektivita prohledávání krajiny stromů | Priory |

Neinformativní prior |

Autokorelace MCMC | Burnin | Posterior |

Hustota posteriórní pravděpodobnosti |

Diagnostika konvergence |

Divergence druhů |

Oddělení druhů | Supermatice |

Koalescence |

Superstromy |

Diagnostika konvergence

Výsledek BI musí vždy konvergovat a jenom sumarizace posterioru po konvergenci je možno brát jako použitelných výsledek. Prvotní diagnostika konvergence je k dispozici již během analýzy. Vyjadřuje se jako průměrné směrodatná odchylka frekvencí dělení (average standard deviation of split frequencies) a při ukončení analýzy by měla být .

Po sumarizaci výsledků se zobrazí tabulka parametrů substitučního modelu a jejich intervaly nejvyšší posteriorní hustoty. Zde je indikátorem konvergence statistika potenciální faktor redukující škálu (potential scale reduction factor), který by se měl blížit 1.000.

interval nejvyšší posteriorní hustoty délky stromu (tree length, TL) by měl obsahovat délku stromu z analýzy maximální věrohodnosti.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity