E-hodnota
Genetické databáze obsahují velké množství dat, které se např. u nukleotidové databázi skládají z abecedy z jenom čtyř znaků . Můžeme předpokládat, že se některé pořadí nukleotidů bude v databázi vyskytovat náhodou. Např. trojice nukleotidů ATG kóduje aminokyselinu metionín a zároveň je to start kodon, kterým začíná většina známých genů. Tato krátká sekvence se ovšem vyskytuje i v genomických úsecích, které nekódují proteiny. Nalezení takové shody v genomické sekvenci je z pohledu vyhledávání podobných sekvencí nesmyslné. -hodnota vyjadřuje, nakolik nesmyslné porovnání sekvencí je.
Přesněji, E-hodnota určuje, kolik krát se v dané genetické databázi bude vyskytovat stejně podobná sekvence náhodou. Počítá se podle vzorce:
kde a je délka dvou porovnávaných sekvencí (zájmové a nalezené), je skóre alignmentu ( Alignment) těchto dvou sekvencí a parametry a představují přirozenou škálu pro velikost databáze a skórovací systém.
Skóre alignmentu je vysvětleno v kapitole Alignment, zde jenom stručně. Porovnání dvou sekvencí můžeme vyjádřit jako součet odměn a penalt za shodu anebo rozdíl (match/mismatch) nukleotidových bází v jednotlivých pozicích (obr. 3). Výsledná hodnota informuje o tom, nakolik jsou si sekvence v daném alignmentu podobné vzhledem k jejich délce. Konkrétní hodnoty odměn a penalt ovlivňují, jak citlivě bude blast vyhledávat. Vhodné hodnoty jsou nastavené pro jednotlivé programy blastu, kterými by uživatel měl začínat prohledávání.
1 |
A |
T |
G |
A |
C |
A |
A |
G |
A |
A |
T |
2 |
G |
A |
A |
T |
C |
T |
A |
G |
A |
A |
T |
3 |
-4 |
-4 |
-4 |
-4 |
5 |
-4 |
5 |
5 |
5 |
5 |
5 |