Alignment
Sekvence DNA obsahují velké množství informací, kde má každá nukleotidová báze na určité pozici svou historii. Abychom mohli porovnávat jednotlivé sekvence a využít tak informaci o změnách DNA v čase, je potřebné zjistit, kde v různých sekvencích jsou pozice, které mají společnou evoluční historii. K identifikaci znaků, které jsou vzájemně porovnatelné, slouží alignment (obr.1).
Pozice, které mají společnou evoluční historii neboli společný původ, voláme homologické pozice. Na jejich určení je ale nutné, aby soubor sekvencí sám osobě představoval soubor homologických genů.
Geny se nemusí šířit jenom mezi generacemi, ale někdy se i duplikují v rámci genomu. Různé kopie se diverzifikují a mohou získávat nové funkce a tvořit genové rodiny. Homologické geny, které vznikly duplikací (případně opakovanou duplikací) v rámci jednoho genomu jsou paralogy. Společný původ paralogů bude u předka, u kterého došlo k duplikaci. Ve většině případů rozsáhlých proteinových rodin došlo k duplikacím takových genů dávno v minulosti a obdobné skupiny paralogů se mohou vyskytovat u širokého spektra organizmů.
Homologické geny, které se vyskytují u různých organizmů, jsou ortology.
V jednom souboru sekvencí se mohou vyskytovat ortology i paralogy za předpokladu, že nás zajímá studium evoluce celé genové rodiny. Jinak by měl soubor obsahovat takový výběr sekvencí, který koresponduje se zkoumanou hypotézou.
Logicky sestavený soubor sekvencí musí dodat uživatel. Úlohou alignmentu je zjistit, v jakém směru si sekvence odpovídají (zda mezi nimi nejsou i reverzně komplementární sekvence), nalézt, kde se sekvence co nejlépe shodují a doplnit mezery (gaps) do oblastí, kde zřejmě došlo k insercím a delecím. Výsledkem je matice sekvencí, ve které jednotlivé sloupce představují homologické pozice – znaky, které je možné vzájemně hodnotit, protože mají společný původ.
Správný alignment je kruciální pro všechny následující analýzy! Od něj se pak odvíjejí další výsledky a interpretace testovaných jevů. Uživatel by měl alignment sestavovat nadmíru pozorně a hodnotit jeho kvalitu před dalším použitím.
Otázka: Jak musí vždy vypadat indel mutace u genu kódujícího protein?
Pokud se jedná o kódující sekvenci a gen není poškozený, indely musí mít délku 3 bp, což je délka jednoho kodonu. Jinak by při překladu docházelo k posunu otevřeného čtecího rámce.
Otázka: Proč může být délka indelu jiná u nekódujících lokusů?
V jiných částech genomu nebude platit tak přísný limit na délku indelu při zachování funkčnosti lokusu. Indely můžou mít délku od 1 bp po několik tisíc bázových párů.