Analýza genomických a proteomických datAnalýza genomických a proteomických dat Základní schémata statistické analýzy dat Predikce skupin Výběr proměnných

Analýza genomických a proteomických dat |

Současné výzvy a technologie genomiky a proteomiky |

Výstupy z výukové jednotky | Úvod | Moderní technologie analýzy genomu a proteomu a jejich datové výstupy |

Mikročipy | Hmotnostní spektrometrie | 2D gelová elektroforéza | Shrnutí |

Bioinformatika a statistika v analýze genomických a proteomických dat |

Typy dat a potřeba jejich úpravy | Základní kroky analýzy genomických a proteomických dat | Standardy analýzy genomických a proteomických dat | Software pro analýzu |

Příklady k procvičení |

Princip a rozdělení DNA mikročipů |

Analýza obrazu (kvantifikace signálu) DNA mikročipů |

Výstupy z výukové jednotky | Úvod | cDNA mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Oligonukleotidové mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Příklady k procvičení | Literatura |

Úprava a normalizace dat cDNA mikročipů |

Výstupy z výukové jednotky | Úvod | Kontrola kvality |

Kontrola kvality v rámci spotů | Kontrola kvality a normalizace v rámci mikročipu |

Procento nekvalitních měření | Systematické odchylky |

Normalizace cDNA mikročipů a vytvoření finální datové matice |

Normalizace v rámci mikročipu |

Normalizace mezi mikročipy |

Sumarizace a vytvoření finálního datového souboru |

Příklady k procvičení | Literatura |

Úprava a normalizace dat oligonukleotidových mikročipů |

Výstupy z výukové jednotky | Úvod | AffyBatch - R datová struktura pro oligonukleotidové mikročipy | Kontrola kvality |

Kontrola na úrovni sond | Kontrola na úrovni mikročipů |

Kontrola kvality na základě parametrů Affymetrix | Kontrola kvality s pomocí základních diagnostických grafů | Kontrola kvality na základě modelu úrovně sondy (PLM - probe level model) |

Normalizace a sumarizace |

Normalizace v rámci mikročipu |

MAS 5.0 metoda korekce na pozadí | RMA konvoluce |

Normalizace mezi mikročipy | Sumarizace |

Metody sumarizace v rámci jednoho mikročipu | Metody sumarizace vícečipové |

Příklady k procvičení | Literatura |

Základní schémata statistické analýzy dat |

Výstupy z výukové jednotky | Porovnávání skupin |

Výpočet velikosti účinku | Testování hypotéz u genomických a proteomických dat |

SAM - Significance Analysis of Microarrays | Limma - Linear Models for Analysis of Microarrays |

Praktický příklad analýzy |

Kontrola kvality | Analýza dat |

Objevování skupin |

Konsenzusové shlukování | Dynamické řezání stromu | Praktický příklad analýzy |

Predikce skupin |

Výběr proměnných | Typy klasifikátorů | Odhad výkonnosti klasifikátoru |

Analýza přežití |

Praktický příklad analýzy |

Příklady k procvičení |

Analýza arrayCGH |

Metody analýzy arrayCGH | Princip segmentačních metod | Porovnání metod |

Analýza genových sad |

Databáze genových sad/pathways | Nástroje pro analýzu genových sad |

Příklad metody celého seznamu | Příklad metody dělící hranice | Porovnání metod | Metody smíšené |

Studijní materiály a software |

Analýza dat hmotnostní spektrometrie |

Time-of-flight spektrometrie |

Úprava základních dat |

Liquid Chromatography MS/MS |

Zpracování dat | Databázové vyhledávání | Rekonstrukce sady proteinů |

2D gelová elektroforéza |

DIGE | Úprava dat |

Veřejně dostupné databáze dat |

Analýza sekvencí DNA |

Výběr proměnných

Některé klasifikační algoritmy využívají všechny proměnné (geny, proteiny), jiné pouze podskupinu. Redukce dimenzionality dat - tedy zmenšení počtu genů nebo proteinů použitých v rozhodovacím pravidlu je výhodné z několika důvodů:

Ze statistického hlediska - Eliminace tisíců nerelevantních genů významně ovlivní komplexitu vybraného klasifikátoru, čímž se stane robustnější.
Z biologického hlediska - Výběr vhodných genů / proteinů silně korelovaných s danou skupinou pomůže pochopit mechanismus jejich působení.
Z praktického hlediska - Čím méně genů potřebujeme pro predikci, tím snadnější je uplatnění klasifikátoru v praxi, protože změření exprese několika genů je finančně mnohem méně náročné než použití celogenomového čipu.

U genomických a proteomických dat má výběr proměnných své vlastní úskalí. Protože geny a proteiny jsou velmi korelované, výběr jednoho reprezentanta ze skupiny korelovaných genů je pak víceméně náhodný. Malé změny v trénovacích datech, případně použití jiného algoritmu klasifikace pak může vyústit do zcela odlišné selekce genů. To je v pořádku, jen pozor na interpretaci - je nutno brát na zřetel, že se jedná pouze o podskupinu genů. Toto se často ignoruje při srovnávání různých predikčních tzv. genových "signatures" (gene signatures), které na základě exprese vybraných genů predikují odpověď pacienta na terapii. Průnik genů použitých jednotlivými klasifikátory, který je velice malý, se považuje za nestabilitu klasifikátorů a vyvozují se závěry o tom, že "každému vyšlo něco jiného, a proto je to nedůvěryhodné". To není pravda, je to důsledek právě výše zmíněných korelací mezi geny. Obrázek vpravo zobrazuje průnik genů čtyř prognostických klasifikátorů kolorektálního karcinomu [Di Narzo a kol, 2014].

Další častou chybou je dělat biologické závěry o podskupinách vzorků z genů vybraných v klasifikátoru. Ano, tyto geny jsou jedny z nejvýznamějších, avšak nepředstavují ani zdaleka celou skupinu genů a nelze tedy na nich dělat analýzu genových dráh.

Rozlišujeme dva základní typy metod výběru proměnných:

Filtrace - geny vybereme na základě diskriminační schopnosti jednotlivých proměnných (geny odlišně exprimované mezi skupinami, které klasifikujeme, prognostické geny, ...)
Wrapper metody - vybírají se přímo skupiny genů na kterých se vybuduje klasifikátor, jehož výkon se následně otestuje:
- Forward sequential selection: geny jsou postupně vybírány na základě informace kterou přispívají k diskriminaci
- Backward selection: začíná s celou množinou a postupně odstraňuje ty, které nepřispívají k diskriminaci (vzhledem k ostatním genům)

Tento přístup je výpočetně náročný, protože nemůžeme otestovat všechny možné podskupiny, avšak byl doporučen MAQC II konsorciem.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity