Analýza genomických a proteomických datAnalýza genomických a proteomických dat Základní schémata statistické analýzy dat Porovnávání skupin Praktický příklad analýzy

Analýza genomických a proteomických dat |

Současné výzvy a technologie genomiky a proteomiky |

Výstupy z výukové jednotky | Úvod | Moderní technologie analýzy genomu a proteomu a jejich datové výstupy |

Mikročipy | Hmotnostní spektrometrie | 2D gelová elektroforéza | Shrnutí |

Bioinformatika a statistika v analýze genomických a proteomických dat |

Typy dat a potřeba jejich úpravy | Základní kroky analýzy genomických a proteomických dat | Standardy analýzy genomických a proteomických dat | Software pro analýzu |

Příklady k procvičení |

Princip a rozdělení DNA mikročipů |

Analýza obrazu (kvantifikace signálu) DNA mikročipů |

Výstupy z výukové jednotky | Úvod | cDNA mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Oligonukleotidové mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Příklady k procvičení | Literatura |

Úprava a normalizace dat cDNA mikročipů |

Výstupy z výukové jednotky | Úvod | Kontrola kvality |

Kontrola kvality v rámci spotů | Kontrola kvality a normalizace v rámci mikročipu |

Procento nekvalitních měření | Systematické odchylky |

Normalizace cDNA mikročipů a vytvoření finální datové matice |

Normalizace v rámci mikročipu |

Normalizace mezi mikročipy |

Sumarizace a vytvoření finálního datového souboru |

Příklady k procvičení | Literatura |

Úprava a normalizace dat oligonukleotidových mikročipů |

Výstupy z výukové jednotky | Úvod | AffyBatch - R datová struktura pro oligonukleotidové mikročipy | Kontrola kvality |

Kontrola na úrovni sond | Kontrola na úrovni mikročipů |

Kontrola kvality na základě parametrů Affymetrix | Kontrola kvality s pomocí základních diagnostických grafů | Kontrola kvality na základě modelu úrovně sondy (PLM - probe level model) |

Normalizace a sumarizace |

Normalizace v rámci mikročipu |

MAS 5.0 metoda korekce na pozadí | RMA konvoluce |

Normalizace mezi mikročipy | Sumarizace |

Metody sumarizace v rámci jednoho mikročipu | Metody sumarizace vícečipové |

Příklady k procvičení | Literatura |

Základní schémata statistické analýzy dat |

Výstupy z výukové jednotky | Porovnávání skupin |

Výpočet velikosti účinku | Testování hypotéz u genomických a proteomických dat |

SAM - Significance Analysis of Microarrays | Limma - Linear Models for Analysis of Microarrays |

Praktický příklad analýzy |

Kontrola kvality | Analýza dat |

Objevování skupin |

Konsenzusové shlukování | Dynamické řezání stromu | Praktický příklad analýzy |

Predikce skupin |

Výběr proměnných | Typy klasifikátorů | Odhad výkonnosti klasifikátoru |

Analýza přežití |

Praktický příklad analýzy |

Příklady k procvičení |

Analýza arrayCGH |

Metody analýzy arrayCGH | Princip segmentačních metod | Porovnání metod |

Analýza genových sad |

Databáze genových sad/pathways | Nástroje pro analýzu genových sad |

Příklad metody celého seznamu | Příklad metody dělící hranice | Porovnání metod | Metody smíšené |

Studijní materiály a software |

Analýza dat hmotnostní spektrometrie |

Time-of-flight spektrometrie |

Úprava základních dat |

Liquid Chromatography MS/MS |

Zpracování dat | Databázové vyhledávání | Rekonstrukce sady proteinů |

2D gelová elektroforéza |

DIGE | Úprava dat |

Veřejně dostupné databáze dat |

Analýza sekvencí DNA |

Praktický příklad analýzy

V tomto příkladu budeme podobně jako v předcházejících příkladech pracovat v softvéru R - pro statistické spracování dat. Pro obeznámaní s tímto programem doporučujeme pročíst si výukový text Analýza dat v R. V dalším textu budeme předpokládat, že program R znáte. Všechny příkazy níže se zadávají v do příkazového řádku v R konzole.

Budeme pokračovat v práci se stejným příkladem experimentu porovnávajícího ER (estrogen receptor) pozitivní a ER negativní karcinomy prsu, který jsme používali v předcházejících kapitolách.

Tentokrát ale načteme soubor, který obsahuje již normalizovanou matici s genovou expresí všech vzorků.

Nejprve načteme soubor, který obsahuje matici s genovou expresí [ke stažení ZDE - soubor nutno rozbalit]:

> load("GSE20194_MDACC_Expression.rdata")
> ls()
[1] "X"

Nyní zkontrolujeme správnost načtení datového souboru:
1) typ objektu
> is(X)
[1] "matrix" "array" "structure" "vector"

2) dimenze objektu
> dim(X)
[1] 278 13271

3) samotný náhled prvních pěti řádků (vzorky) a sloupců (geny)
> X[1:5,1:5]
A1CF A2BP1 A2M A4GALT A4GNT
GSM505327_19893_AB01778470_17038.CEL.gz 5.626439 5.210402 7.868409 5.022798 5.889645
GSM505328_19893_AB01778504_17045.CEL.gz 5.911184 4.934100 9.027167 5.151001 6.021435
GSM505329_19893_AB01778510_17030.CEL.gz 5.789104 5.195655 8.017994 5.323679 6.001322
GSM505330_19893_AB01779182_17047.CEL.gz 6.455712 5.195689 7.923466 5.220235 6.105855
GSM505331_19893_AB01779189_17018.CEL.gz 6.069822 5.220019 7.369173 5.077837 5.849491

Nyní načteme soubor obsahující klinické informace k jednotlivým vzorkům [ke stažení ZDE]
> clinical<-read.csv("GSE20194_MDACC_Sample_Info.csv", header=TRUE)

Znovu zkontrolujeme správnost načtení datového souboru, s pomocí funkce head() a dim().
> head(clinical,n=3L)
Sample.name       title                   CEL.file
1 19893_AB01778470_17038 BR_FNA_M157 19893_AB01778470_17038.CEL
2 19893_AB01778504_17045 BR_FNA_M196 19893_AB01778504_17045.CEL
3 19893_AB01778510_17030 BR_FNA_M176 19893_AB01778510_17030.CEL
source.name     organism Age Race ER_status
1 Sample ID -- 157, fine-needle aspiration, breast cancer cells homo sapiens 57 white         P
2 Sample ID -- 196, fine-needle aspiration, breast cancer cells homo sapiens 69 asian         P
3 Sample ID -- 176, fine-needle aspiration, breast cancer cells homo sapiens 77 mixed         P
pCR_vs_RD PR_status molecule label                                  description platform
1        RD         P total RNA biotin MAQC_Distribution_Status: MAQC_T -- Training    GPL96
2        RD         P total RNA biotin MAQC_Distribution_Status: MAQC_T -- Training    GPL96
3        RD         N total RNA biotin MAQC_Distribution_Status: MAQC_T -- Training    GPL96
Additional.information Tbefore Nbefore BMNgrd ER HER2.Status Her2.IHC Her2.FISH Histology
1                     NA       2       0      2 90           N        2      1.95       IDC
2                     NA       2       1      2 90           N        0      1.95   IMC/IDC
3                     NA       4       1      2 10           P        2       3.6       IDC
Treatment.Code                      Treatments.Comments
1           TFAC      98-240 Taxol (80mg/m2 q wk), FAC x4
2           TFAC           Taxol 80 mg/m2 weekly x12, FAC
3           TFAC        Taxol 80 mg/m2 weekly x12, FAC x1
> dim(clinical)
[1] 278 25

Soubor je načten správně, můžeme přistoupit k dalším analýzám, které uvádíme v jednotlivých podkapitolách.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity