Objevování skupin (class discovery) je typ analýzy, u níž se snažíme vytvořit závěry o datovém souboru bez (přihlédnutí k) jakékoliv předchozí znalosti základních biologických skupin. Tento typ analýzy se také nazývá shlukování. Jeho cílem je rozdělení objektů v datovém souboru (v našem případě vzorků nebo genů/proteinů) do skupin (shluků) tak, aby si objekty uvnitř stejné skupiny byly velmi podobné, zatímco objekty z různých skupin byly tak odlišné, jak jen je to možné.

V genomice a proteomice můžeme najít funkčně příbuzné geny nebo proteiny prostřednictvím hledání skupin genů/proteinů s podobnou expresí (korelace napříč vzorky). Dalším úkolem může být objevení nových podskupin nemocí porovnáním genových nebo proteomických profilů vzorků.

Shlukování je také často používáno k vizualizaci a kontrole vyběru odlišně exprimovaných genů/proteinů mezi známými skupinami vzorků (porovnání skupin). Byl-li výběr úspěšný, shlukování vzorků založené na této podskupině genů/vzorků by mělo vyústit víceméně v porovnané skupiny.

V některých publikacích autoři používají termíny shlukování s učitelem (supervised clustering) a shlukování bez učitele (unsupervised clustering). Nenechte se zmást, shlukování s učitelem využívá předchozí znalosti o datech. Nicméně tento typ shlukování patří spíše k další kapitole o predikci tříd. V následujícím textu se budeme zabývat metodami shlukování bez učitele .

Základní principy shlukování

Máme datovou matici X o velikosti n x p, kde n je počet objektů (vzorků) a p je a počet proměnných (genů/proteinů). Hledáme nejvhodnější rozdělení dat tak, aby nalezené skupiny byly uvnitř skupin vysoce homogenní a mezi sebou vysoce heterogenní.

Existují různé typy shlukovacích metod a není možné je zde všechny popsat, proto se zaměříme pouze na nejčastěji používané metody.

Jsou dva hlavní problémy, které by měl čtenář brát v úvahu předtím, než použije některý z níže uvedených algoritmů:
1) Mnohé shlukovací metody naleznou shluky i v datech, ve kterých se žádné nevyskytují, jen proto, že byly k vyhledání shluků navrženy.
2) Výsledek shlukování by neměl být nikdy považovaný za objektivní reprezentaci informací skrytých v datech. Závisí na algoritmu použitém k analýze.

Obecně platí, že můžeme rozlišit dva hlavní přístupy shlukování bez učitele: metody založené na vzdálenosti a metody založené na modelu.

Nejčastěji se používají metody založené na vzdálenosti, jejichž cílem je seskupení podobných objektů podle aprioriorní míry podobnosti. Tyto metody jsou neparametrické, protože nepředpokládají data pocházející z dříve definovaného rozložení. Patří sem hierarchické shlukování a nehierarchické shlukování.

Naopak, metody založené na modelu jsou založeny na statistickém modelování, kladou silný důraz na předpoklady o rozložení dat, a proto mohou být řazeny do parametrických shlukovacích metod.

Většina shlukovacích technik vytváří disjunktní shluky, což znamená, že je každý objekt přiřazen pouze do jedné skupiny. To nemusí být nejlepším řešením, zejména při shlukování genů/proteinů. Mnoho z nich je zapojeno do více než jedné biologické dráhy, což naznačuje, že by každý gen/protein měl mít možnost patřit do více než jednoho shluku. Metody založené na modelu jsou vhodné k přiřazení pravděpodobnosti ke každému genu, se kterou patří do daného shluku.

Robustní shlukování v analýze genomických a proteomických dat

Příkladové soubory

V následujícíh dvou kapitolách budeme používat pro demonstraci dva datové soubory:

golub - datový soubor genových expresí 3051 genů a 38 vzorků krve pacientů z tří skupin akutní leukemie (AML - akutní myeloidní leukémie, ALL-B - akutní lymfoidní leukemie B buněčného typu a ALL-T - akutní lymfoidní leukemie T buněčného typu). Genová exprese byla změřena pomocí Affymetrix mikročipů. Tento datový soubor je přístupný v R balíku multtest. Toto byl první datový soubor který prokázal užitečnost mikročipových expresních dat ve výzkumu rakoviny (Golub et al., 1999).

náhodný datový soubor - matice 1000 proměnných a 100 vzorků, náhodně výbraných z normálního rozložení o průměru 0 a směrodatné odchýlce 1. Tento datový soubor bude sloužit jako příklad datového souboru bez vnitřní struktury (neměli bychom tedy nalézt robustní shluky).

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity