E-learningová učebnice

Matematická biologie

Slovník | Vyhledávání | Mapa webu

Analýza genomických a proteomických datAnalýza sekvencí DNA BLAST-Vyhledávání podobných sekvencí E-hodnota

Analýza genomických a proteomických dat | Analýza sekvencí DNA |

Sekvence |

Základní informace | Výstupy z výukové jednotky |

Genom | Sekvenování genomu |

Polymerázová řetězcová reakce |

Emulzní PCR | Amplifikace na mostech |

Celogenomové sekvenování |

Pyrosekvenování | Sekvenování pomocí syntézy | Iontové polovodičové sekvenování | Sekvenování jedné molekuly DNA |

Sangerovo sekvenování | Sestavení sekvence |

Postup sestavování kontigu | Detekce mutací v kontigu |

Genetické databáze |

Vyhledávání v databázích |

Přístupové číslo sekvence |

Sekvence v GenBance | Stahování sekvencí | Informační zdroje pro proteiny |

BLAST-Vyhledávání podobných sekvencí |

Základní informace | Výstupy z výukové jednotky | Využití blastu | Přístup k blastu | Princip blastu | E-hodnota | Programy blastu |

Nukleotidový blast | Proteínový blast | Blast využívající překlad DNA do sekvence aminokyselin a opačně | Prohledávání specifických databází |

Vícenásobné vyhledávání | Výsledek a interpretace | Taxonomie nebo fylogeneze nalezených záznamů |

Predikce genů a anotace sekvence DNA |

Základní informace | Výstupy z výukové jednotky | Komparativní anotace |

Nejistota v anotaci |

Anotace ab initio - od začátku |

Genomické ostrovy | Otevřený čtecí rámec | Predikce eukaryotických genů | Skrytý markovův model | Modelování začátku intronu | Modelování frekvence kodonů | Predikce jiných RNA molekul |

Příprava sekvence do genetických databází |

Údaje pro vkládání sekvencí |

Alignment |

Základní informace | Výstupy z výukové jednotky | Lokální alignment | Globální alignment | Vícenásobný alignment |

Progresivní alignment | Alignování velkých souborů sekvencí |

Praktické problémy s alignmentem a jejich řešení |

Modelování příbuznosti sekvencí DNA |

Základní informace | Výstupy z výukové jednotky |

Substituční model |

Substituce |

Tranzice a transverze |

Genetické vzdálenosti | Parametry substitučního modelu |

Vektor frekvence bází | Frekvenční matice | Mutační rychlost |

Příklady nejběžnějších substitučních modelů | Heterogenita rychlosti evoluce mezi pozicemi |

Γ rozdělení | Proporce nevariabilních pozic |

Výběr substitučního modelu |

Hierarchický test poměru věrohodností | Akaikovo informační kriterium | Bayesovo informační kritérium |

Inserce a delece |

Metoda nejbližšího souseda |

Základní informace | Výstupy z výukové jednotky | Vstupní údaje pro metodu nejbližšího souseda | Algoritmus NJ shlukování | Výhody a nevýhody NJ metody | Využití NJ metody |

Sestavování vícenásobného alignmentu | Testování substitučního modelu | Vizualizace předběžných výsledků |

Ověření stability uzlů stromu – bootstrap |

Základní informace | Výstupy z výukové jednotky | Algoritmus bootstrapu |

Pseudoreplikace alignmentu | Sumarizace bootstrapu |

Použití bootstrapu |

Fylogenetika |

Základní informace | Výstupy z výukové jednotky |

Čtení fylogenetického stromu |

Fylogenetický strom formálně | Fylogenetický strom intuitivně | Počet možných stromů | Vlastnosti fylogeneze |

Topologie | Vzdálenosti taxonů |

Ancestrální sekvence | Určení kořene stromu | Využití fylogenetické informace |

Maximální věrohodnost |

Věrohodnost (L, likelihood) |

Scenáře ancestrálních stavů |

Krajina stromů | Heuristické vyhledávání |

Záměna nejbližšího souseda | Rozdělení a spojení stromu | Lezení do kopce |

Bayesiánská inference |

Markovovy řetězce Monte Carlo | Efektivita prohledávání krajiny stromů | Priory |

Neinformativní prior |

Autokorelace MCMC | Burnin | Posterior |

Hustota posteriórní pravděpodobnosti |

Diagnostika konvergence |

Divergence druhů |

Oddělení druhů | Supermatice |

Koalescence |

Superstromy |

E-hodnota

Genetické databáze obsahují velké množství dat, které se např. u nukleotidové databázi skládají z abecedy z jenom čtyř znaků . Můžeme předpokládat, že se některé pořadí nukleotidů bude v databázi vyskytovat náhodou. Např. trojice nukleotidů ATG kóduje aminokyselinu metionín a zároveň je to start kodon, kterým začíná většina známých genů. Tato krátká sekvence se ovšem vyskytuje i v genomických úsecích, které nekódují proteiny. Nalezení takové shody v genomické sekvenci je z pohledu vyhledávání podobných sekvencí nesmyslné. -hodnota vyjadřuje, nakolik nesmyslné porovnání sekvencí je.
Přesněji, E-hodnota určuje, kolik krát se v dané genetické databázi bude vyskytovat stejně podobná sekvence náhodou. Počítá se podle vzorce:

kde a je délka dvou porovnávaných sekvencí (zájmové a nalezené), je skóre alignmentu ( Alignment) těchto dvou sekvencí a parametry a představují přirozenou škálu pro velikost databáze a skórovací systém.
Skóre alignmentu je vysvětleno v kapitole Alignment, zde jenom stručně. Porovnání dvou sekvencí můžeme vyjádřit jako součet odměn a penalt za shodu anebo rozdíl (match/mismatch) nukleotidových bází v jednotlivých pozicích (obr. 3). Výsledná hodnota informuje o tom, nakolik jsou si sekvence v daném alignmentu podobné vzhledem k jejich délce. Konkrétní hodnoty odměn a penalt ovlivňují, jak citlivě bude blast vyhledávat. Vhodné hodnoty jsou nastavené pro jednotlivé programy blastu, kterými by uživatel měl začínat prohledávání.

1	A	T	G	A	C	A	A	G	A	A	T
2	G	A	A	T	C	T	A	G	A	A	T
3	-4	-4	-4	-4	5	-4	5	5	5	5	5

Obr. 3: Výpočet skóre alignmentu pro dvě slova z obr. 2. Skóre alignmentu představuje součet +5 za shodu nukleotidových bází v každé pozici a –4 za rozdíl. Výsledné skóre je rovno 10.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity