
Praktické problémy s alignmentem a jejich řešení
Blízko příbuzné sekvence je možné alignovat správně libovolnou metodou s téměř jakýmkoliv nastavením (obr. 6). I v takových případech je ale vhodné alignment zkontrolovat a zhodnotit, zda jsou mezery včleněny správně.
Častěji ale alignmenty obsahují komplikace, které jsou dány buď povahou dat anebo možnými chybami v genetických databázích:
- Příliš nepříbuzné taxony.
- Geny s odlišnou evoluční historií.
- Úseky, které rychle mutují - biologický význam.
- Chyby v sestavování datasetu, sekvence jiných genů anebo nepříbuzných organizmů (např. při vyhledávání sekvence byl taxon hledán ve všech polích, nejenom v poli Organism a stáhla se sekvence jeho parazita).
- Chyby v anotacích – nesprávný název genu anebo jeho lokalizace.
- V případě nově sestavených sekvencí (Contig) kontaminace vzorku anebo nespecifická enzymatická reakce.
Problematické alignmenty se poznají podle neseřazených mezer v různých pozicích a variabilních nukleotidových reziduí v okolí. Pokud se problém týká několika sekvencí, je vhodné ověřit, zda nejsou uvedeny reverzně komplementární sekvence vůči ostatním (některé programy umí rozlišit směr sekvence, u jiných správný směr musí zadat uživatel), nebo zda sekvence není nevhodně zařazena do souboru (blastem ověřit gen a organismus).
Pokud se nejasný alignment vyskytuje napříč všemi sekvencemi a nedaří se jej uspokojivě vyřešit použitím alternativních metod, je namístě zvážit, zda neoželet potenciální informaci a nevymazat celý problematický úsek. Analýza alignmentu, kde nejsou správně seřazeny všechny homologické pozice může vést k zavádějícím výsledkům.
Obr. 6: Jasný alignment blízko příbuzných taxonů. Sekvence 4 a 8 byly do GenBanky vloženy ze sekvenování RNA a proto obsahují symbol pro uracyl. V alignmentu je uracyl správně vyhodnocen a koresponduje s tyminem.