Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza sekvencí DNA BLAST-Vyhledávání podobných sekvencí E-hodnota

Logo Matematická biologie

E-hodnota

Genetické databáze obsahují velké množství dat, které se např. u nukleotidové databázi skládají z abecedy z jenom čtyř znaků . Můžeme předpokládat, že se některé pořadí nukleotidů bude v databázi vyskytovat náhodou. Např. trojice nukleotidů ATG kóduje aminokyselinu metionín a zároveň je to start kodon, kterým začíná většina známých genů. Tato krátká sekvence se ovšem vyskytuje i v genomických úsecích, které nekódují proteiny. Nalezení takové shody v genomické sekvenci je z pohledu vyhledávání podobných sekvencí nesmyslné. -hodnota vyjadřuje, nakolik nesmyslné porovnání sekvencí je.
Přesněji, E-hodnota určuje, kolik krát se v dané genetické databázi bude vyskytovat stejně podobná sekvence náhodou. Počítá se podle vzorce:

kde  a je délka dvou porovnávaných sekvencí (zájmové a nalezené),  je skóre alignmentu ( Alignment) těchto dvou sekvencí a parametry  a představují přirozenou škálu pro velikost databáze a skórovací systém.
Skóre alignmentu je vysvětleno v kapitole Alignment, zde jenom stručně. Porovnání dvou sekvencí můžeme vyjádřit jako součet odměn a penalt za shodu anebo rozdíl (match/mismatch) nukleotidových bází v jednotlivých pozicích (obr. 3). Výsledná hodnota informuje o tom, nakolik jsou si sekvence v daném alignmentu podobné vzhledem k jejich délce. Konkrétní hodnoty odměn a penalt ovlivňují, jak citlivě bude blast vyhledávat. Vhodné hodnoty jsou nastavené pro jednotlivé programy blastu, kterými by uživatel měl začínat prohledávání.

1

A

T

G

A

C

A

A

G

A

A

T

2

G

A

A

T

C

T

A

G

A

A

T

3

-4

-4

-4

-4

5

-4

5

5

5

5

5

Obr. 3: Výpočet skóre alignmentu pro dvě slova z obr. 2. Skóre alignmentu představuje součet +5 za shodu nukleotidových bází v každé pozici a –4 za rozdíl. Výsledné skóre je rovno 10.
 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity