![Logo Matematická biologie](images/logo-matbiol.png)
Výběr proměnných
- Ze statistického hlediska - Eliminace tisíců nerelevantních genů významně ovlivní komplexitu vybraného klasifikátoru, čímž se stane robustnější.
- Z biologického hlediska - Výběr vhodných genů / proteinů silně korelovaných s danou skupinou pomůže pochopit mechanismus jejich působení.
- Z praktického hlediska - Čím méně genů potřebujeme pro predikci, tím snadnější je uplatnění klasifikátoru v praxi, protože změření exprese několika genů je finančně mnohem méně náročné než použití celogenomového čipu.
![](/res/file/PrunikKlasifikatory.png)
Další častou chybou je dělat biologické závěry o podskupinách vzorků z genů vybraných v klasifikátoru. Ano, tyto geny jsou jedny z nejvýznamějších, avšak nepředstavují ani zdaleka celou skupinu genů a nelze tedy na nich dělat analýzu genových dráh.
Rozlišujeme dva základní typy metod výběru proměnných:
- Filtrace - geny vybereme na základě diskriminační schopnosti jednotlivých proměnných (geny odlišně exprimované mezi skupinami, které klasifikujeme, prognostické geny, ...)
- Wrapper metody - vybírají se přímo skupiny genů na kterých se vybuduje klasifikátor, jehož výkon se následně otestuje:
- Forward sequential selection: geny jsou postupně vybírány na základě informace kterou přispívají k diskriminaci
- Backward selection: začíná s celou množinou a postupně odstraňuje ty, které nepřispívají k diskriminaci (vzhledem k ostatním genům)
Tento přístup je výpočetně náročný, protože nemůžeme otestovat všechny možné podskupiny, avšak byl doporučen MAQC II konsorciem.