Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza sekvencí DNA Predikce genů a anotace sekvence DNA Anotace ab initio - od začátku Modelování začátku intronu

Logo Matematická biologie

Modelování začátku intronu

Sekvence protein-kódujících genů eukaryotů obecně obsahují exony a introny, které je nutno definovat. Nejjednodušší příklad hodnocení sekvence, která by mohla obsahovat intron, je pomocí váhových matic. Váhové matice obsahují hodnoty pravděpodobnosti pro emisi konkrétního nukleotidu na konkrétní pozici sekvence. Můžou mít libovolnou délku a pozici jevu, který predikují. V příkladu na obr.4 má délku hodnocené sekvence 22 bp a intron začíná na pozici 7. Pravděpodobnost, že testovací sekvence bude obsahovat začátek intronu na stejné pozici při použití této váhové matice, bude součin hodnot pravděpodobností pro konkrétní nukleotidové báze na konkrétních pozicích.

Pravděpodobnost, že sekvence X o délce L bude obsahovat intron na základě váhové matice M, je pak:

Jelikož u delších sekvencí násobení pravděpodobností rychle vede k nule, uvedený výraz se počítá v logaritmické škále:

V příkladu je emise jakéhokoliv nukleotidu v pozici nezávislá na tom, který nukleotid se v sekvenci vyskytoval před ním. Jedná se tedy o HMM nultého řádu.

Úloha: Vypočítejte pomocí váhové matice na obr.4, kde a s jakou pravděpodobností bude začínat intron v sekvenci z genu IL3: AAAGCAGCCACCTTTGCCTTTGCTGGTGAGTAGCTTGGATAAGACTGGCCTGCAGCAGTGAGGGGTGGT

Upozornění: Váhová matice je sestavena z frekvencí nukleotidových bází v trénovací sadě a obsahuje nuly.

 

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity