Princip blastu
Blast představuje heuristické vyhledávání v rozsáhlé databázi, které rychle eliminuje nepodobné sekvence. Hlavním aspektem je, že blast nedohledává celou délku zájmové sekvence (query), ale jenom její část (slovo; word), kterou následně prodlužuje.
- Odstranit ze sekvence oblasti s nízkou komplexitou (např. repetitivní úseky)
- Rozdělit sekvenci na krátká slova (obr. 2)
- Vytřídit, seřadit a vybrat vhodná slova, která jsou lepší než zadaný práh (threshold)
- Sestavit z vybraných slov efektivní vyhledávací strom
- Najít přesnou shodu daného slova v databázi
- Prodloužit slovo
- Rozhodnout, zda má prodlužování význam s danými požadavky, případně spojit úseky nalezené vyhledáváním různých slov
- Vypsat záznamy z GenBanky, které prošly rozhodováním a jsou tedy podobné dotazované, zájmové sekvenci (query)
Délka slova výrazně ovlivňuje citlivost prohledávání a jednotlivé programy blastu používají slova o různé délce. Dlouhá slova (28 nukleotidových bází u megablastu) umožní rychlé prohledávání, ale naleznou jenom velmi podobné záznamy. Krátká slova (7 bází u blastn) jsou schopna objevit i málo podobné sekvence, ale prohledávání je pomalejší.
Pomocí slov blast vytváří lokální alignment - oblasti, které se nejvíc shodují s částmi zájmové sekvence. Celá délka zájmové sekvence se nemusí shodovat se záznamem z GenBanky.
Vyhledávání blastem se ukončí, pokud algoritmus narazí na některé z omezení (threshold). Může to být počet nalezených záznamů (hits), anebo naopak nenalezení dostatečného počtu záznamů, které by byly statisticky významně podobné zájmové sekvenci a zároveň měly nízkou pravděpodobnost, že se natolik podobné záznamy v databázi vyskytují náhodou. Tato statistika se nazývá E-hodnota (E-value) a je potřebné porozumět jí pro pochopení výstupu z blastu.
|
A |
T |
G |
A |
C |
A |
A |
G |
A |
A |
T |
C |
T |
A |
G |
A |
A |
T |
1 |
A |
T |
G |
A |
C |
A |
A |
F |
A |
A |
T |
|
|
|
|
|
|
|
2 |
|
T |
G |
A |
C |
A |
A |
G |
A |
A |
T |
C |
|
|
|
|
|
|
3 |
|
|
G |
A |
C |
A |
A |
G |
A |
A |
T |
C |
T |
|
|
|
|
|
4 |
|
|
|
A |
C |
A |
A |
G |
A |
A |
T |
C |
T |
A |
|
|
|
|
5 |
|
|
|
|
C |
A |
A |
G |
A |
A |
T |
C |
T |
A |
G |
|
|
|
6 |
|
|
|
|
|
A |
A |
G |
A |
A |
T |
C |
T |
A |
G |
T |
|
|
7 |
|
|
|
|
|
|
A |
G |
A |
A |
T |
C |
T |
A |
G |
T |
A |
|
8 |
|
|
|
|
|
|
|
G |
A |
A |
T |
C |
T |
A |
G |
A |
A |
T |