Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza sekvencí DNA BLAST-Vyhledávání podobných sekvencí Princip blastu

Logo Matematická biologie

Princip blastu

Blast představuje heuristické vyhledávání v rozsáhlé databázi, které rychle eliminuje nepodobné sekvence. Hlavním aspektem je, že blast nedohledává celou délku zájmové sekvence (query), ale jenom její část (slovo; word), kterou následně prodlužuje.

  1. Odstranit ze sekvence oblasti s nízkou komplexitou (např. repetitivní úseky)
  2. Rozdělit sekvenci na krátká slova (obr. 2)
  3. Vytřídit, seřadit a vybrat vhodná slova, která jsou lepší než zadaný práh (threshold)
  4. Sestavit z vybraných slov efektivní vyhledávací strom
  5. Najít přesnou shodu daného slova v databázi
  6. Prodloužit slovo
  7. Rozhodnout, zda má prodlužování význam s danými požadavky, případně spojit úseky nalezené vyhledáváním různých slov
  8. Vypsat záznamy z GenBanky, které prošly rozhodováním a jsou tedy podobné dotazované, zájmové sekvenci (query)

Délka slova výrazně ovlivňuje citlivost prohledávání a jednotlivé programy blastu používají slova o různé délce. Dlouhá slova (28 nukleotidových bází u megablastu) umožní rychlé prohledávání, ale naleznou jenom velmi podobné záznamy. Krátká slova (7 bází u blastn) jsou schopna objevit i málo podobné sekvence, ale prohledávání je pomalejší.

Pomocí slov blast vytváří lokální alignment - oblasti, které se nejvíc shodují s částmi zájmové sekvence. Celá délka zájmové sekvence se nemusí shodovat se záznamem z GenBanky.

Vyhledávání blastem se ukončí, pokud algoritmus narazí na některé z omezení (threshold). Může to být počet nalezených záznamů (hits), anebo naopak nenalezení dostatečného počtu záznamů, které by byly statisticky významně podobné zájmové sekvenci a zároveň měly nízkou pravděpodobnost, že se natolik podobné záznamy v databázi vyskytují náhodou. Tato statistika se nazývá E-hodnota (E-value) a je potřebné porozumět jí pro pochopení výstupu z blastu.

 

A

T

G

A

C

A

A

G

A

A

T

C

T

A

G

A

A

T

1

A

T

G

A

C

A

A

F

A

A

T

 

 

 

 

 

 

 

2

 

T

G

A

C

A

A

G

A

A

T

C

 

 

 

 

 

 

3

 

 

G

A

C

A

A

G

A

A

T

C

T

 

 

 

 

 

4

 

 

 

A

C

A

A

G

A

A

T

C

T

A

 

 

 

 

5

 

 

 

 

C

A

A

G

A

A

T

C

T

A

G

 

 

 

6

 

 

 

 

 

A

A

G

A

A

T

C

T

A

G

T

 

 

7

 

 

 

 

 

 

A

G

A

A

T

C

T

A

G

T

A

 

8

 

 

 

 

 

 

 

G

A

A

T

C

T

A

G

A

A

T

Obr. 2: Příklad tvorby slov ze sekvence DNA. Blast následně odstraní slova, která jsou si podobná a v genetických databázích vyhledává prvotně shodu s uvedeným seznamem.
 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity