Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza genomických a proteomických dat Základní schémata statistické analýzy dat Predikce skupin Výběr proměnných

Logo Matematická biologie

Výběr proměnných

Některé klasifikační algoritmy využívají všechny proměnné (geny, proteiny), jiné pouze podskupinu. Redukce dimenzionality dat - tedy zmenšení počtu genů nebo proteinů použitých v rozhodovacím pravidlu je výhodné z několika důvodů:
 
  • Ze statistického hlediska - Eliminace tisíců nerelevantních genů významně ovlivní komplexitu vybraného klasifikátoru, čímž se stane robustnější.
  • Z biologického hlediska - Výběr vhodných genů / proteinů silně korelovaných s danou skupinou pomůže pochopit mechanismus jejich působení.
  • Z praktického hlediska - Čím méně genů potřebujeme pro predikci, tím snadnější je uplatnění klasifikátoru v praxi, protože změření exprese několika genů je finančně mnohem méně náročné než použití celogenomového čipu.
U genomických a proteomických dat má výběr proměnných své vlastní úskalí. Protože geny a proteiny jsou velmi korelované, výběr jednoho reprezentanta ze skupiny korelovaných genů je pak víceméně náhodný. Malé změny v trénovacích datech, případně použití jiného algoritmu klasifikace pak může vyústit do zcela odlišné selekce genů. To je v pořádku, jen pozor na interpretaci - je nutno brát na zřetel, že se jedná pouze o podskupinu genů. Toto se často ignoruje při srovnávání různých predikčních tzv. genových "signatures" (gene signatures), které na základě exprese vybraných genů predikují odpověď pacienta na terapii. Průnik genů použitých jednotlivými klasifikátory, který je velice malý, se považuje za nestabilitu klasifikátorů a vyvozují se závěry o tom, že "každému vyšlo něco jiného, a proto je to nedůvěryhodné". To není pravda, je to důsledek právě výše zmíněných korelací mezi geny. Obrázek vpravo zobrazuje průnik genů čtyř prognostických klasifikátorů kolorektálního karcinomu [Di Narzo a kol, 2014].
 
Další častou chybou je dělat biologické závěry o podskupinách vzorků z genů vybraných v klasifikátoru. Ano, tyto geny jsou jedny z nejvýznamějších, avšak nepředstavují ani zdaleka celou skupinu genů a nelze tedy na nich dělat analýzu genových dráh.
 
Rozlišujeme dva základní typy metod výběru proměnných:
  • Filtrace - geny vybereme na základě diskriminační schopnosti jednotlivých proměnných (geny odlišně exprimované mezi skupinami, které klasifikujeme, prognostické geny, ...)
  • Wrapper metody - vybírají se přímo skupiny genů na kterých se vybuduje klasifikátor, jehož výkon se následně otestuje:
    • Forward sequential selection: geny jsou postupně vybírány na základě informace kterou přispívají k diskriminaci
    • Backward selection: začíná s celou množinou a postupně odstraňuje ty, které nepřispívají k diskriminaci (vzhledem k ostatním genům)
       Tento přístup je výpočetně náročný, protože nemůžeme otestovat všechny možné podskupiny, avšak byl doporučen MAQC II konsorciem.
 
 
 
 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity