Analýza genomických a proteomických datAnalýza genomických a proteomických dat Základní schémata statistické analýzy dat Analýza přežití Praktický příklad analýzy

Analýza genomických a proteomických dat |

Současné výzvy a technologie genomiky a proteomiky |

Výstupy z výukové jednotky | Úvod | Moderní technologie analýzy genomu a proteomu a jejich datové výstupy |

Mikročipy | Hmotnostní spektrometrie | 2D gelová elektroforéza | Shrnutí |

Bioinformatika a statistika v analýze genomických a proteomických dat |

Typy dat a potřeba jejich úpravy | Základní kroky analýzy genomických a proteomických dat | Standardy analýzy genomických a proteomických dat | Software pro analýzu |

Příklady k procvičení |

Princip a rozdělení DNA mikročipů |

Analýza obrazu (kvantifikace signálu) DNA mikročipů |

Výstupy z výukové jednotky | Úvod | cDNA mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Oligonukleotidové mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Příklady k procvičení | Literatura |

Úprava a normalizace dat cDNA mikročipů |

Výstupy z výukové jednotky | Úvod | Kontrola kvality |

Kontrola kvality v rámci spotů | Kontrola kvality a normalizace v rámci mikročipu |

Procento nekvalitních měření | Systematické odchylky |

Normalizace cDNA mikročipů a vytvoření finální datové matice |

Normalizace v rámci mikročipu |

Normalizace mezi mikročipy |

Sumarizace a vytvoření finálního datového souboru |

Příklady k procvičení | Literatura |

Úprava a normalizace dat oligonukleotidových mikročipů |

Výstupy z výukové jednotky | Úvod | AffyBatch - R datová struktura pro oligonukleotidové mikročipy | Kontrola kvality |

Kontrola na úrovni sond | Kontrola na úrovni mikročipů |

Kontrola kvality na základě parametrů Affymetrix | Kontrola kvality s pomocí základních diagnostických grafů | Kontrola kvality na základě modelu úrovně sondy (PLM - probe level model) |

Normalizace a sumarizace |

Normalizace v rámci mikročipu |

MAS 5.0 metoda korekce na pozadí | RMA konvoluce |

Normalizace mezi mikročipy | Sumarizace |

Metody sumarizace v rámci jednoho mikročipu | Metody sumarizace vícečipové |

Příklady k procvičení | Literatura |

Základní schémata statistické analýzy dat |

Výstupy z výukové jednotky | Porovnávání skupin |

Výpočet velikosti účinku | Testování hypotéz u genomických a proteomických dat |

SAM - Significance Analysis of Microarrays | Limma - Linear Models for Analysis of Microarrays |

Praktický příklad analýzy |

Kontrola kvality | Analýza dat |

Objevování skupin |

Konsenzusové shlukování | Dynamické řezání stromu | Praktický příklad analýzy |

Predikce skupin |

Výběr proměnných | Typy klasifikátorů | Odhad výkonnosti klasifikátoru |

Analýza přežití |

Praktický příklad analýzy |

Příklady k procvičení |

Analýza arrayCGH |

Metody analýzy arrayCGH | Princip segmentačních metod | Porovnání metod |

Analýza genových sad |

Databáze genových sad/pathways | Nástroje pro analýzu genových sad |

Příklad metody celého seznamu | Příklad metody dělící hranice | Porovnání metod | Metody smíšené |

Studijní materiály a software |

Analýza dat hmotnostní spektrometrie |

Time-of-flight spektrometrie |

Úprava základních dat |

Liquid Chromatography MS/MS |

Zpracování dat | Databázové vyhledávání | Rekonstrukce sady proteinů |

2D gelová elektroforéza |

DIGE | Úprava dat |

Veřejně dostupné databáze dat |

Analýza sekvencí DNA |

Praktický příklad analýzy

Ukažme si na příkladu jak může probíhat analýza přežití v analýze genomických a proteomických dat.

Budeme pokračovat v práci se stejným příkladem experimentu porovnávajícího ER (estrogen receptor) pozitivní a ER negativní karcinomy prsu, který jsme používali v předcházejících kapitolách. Budeme používat výsledky z praktického příkladu analýzy z kapitoly "Porovnávání skupin" a to zejména:

- objekt top100 obsahující top 100 odlišně exprimovaných genů mezi skupinami ER+ a ER- (jak získat top100 najdete ZDE)

Načteme si nejdříve genové expresní data karcinomu prsu TransBig spolu s tabulkou klinických dat. Data lze stáhnout ZDE (nutno rozbalit archiv). Načteme také top 100 genů odlišně

> load(file="TransBIG/TransBIG-expression.rdata")
> clinical2 <- read.csv("TransBIG/TransBIG-Sample_info.csv")
> load("top100.rdata")

1) Chceme zjistit rozdíl v přežití mezi skupinami ER+ a ER-

Načteme funkci pro vykreslení Kaplan-Meierových křivek a balík pro analýzu přežití:

> source("surv.plot.R")
> library(survival)
Loading required package: splines
> rfs <- clinical2$Time.RFS..days
> rfs.event <- clinical2$Event.RFS
> surv.plot(survfit(Surv(rfs, rfs.event)~clinical2$ER.pos.1.yes.))

Odhadneme medián přežití:
> survfit(Surv(rfs, rfs.event)~clinical2$ER.pos.1.yes.)
Call: survfit(formula = Surv(rfs, rfs.event) ~ clinical2$ER.pos.1.yes.)

   4 observations deleted due to missingness
                          records n.max n.start events median 0.95LCL 0.95UCL
clinical2$ER.pos.1.yes.=0      75    75      75     38   4493    2192      NA
clinical2$ER.pos.1.yes.=1     174   174     174     79   5588    4273      NA

Je rozdíl v přežití statisticky významný?
> survdiff(Surv(rfs, rfs.event)~clinical2$ER.pos.1.yes.)
Call:
survdiff(formula = Surv(rfs, rfs.event) ~ clinical2$ER.pos.1.yes.)

n=249, 4 observations deleted due to missingness.

                            N Observed Expected (O-E)^2/E (O-E)^2/V
clinical2$ER.pos.1.yes.=0 75       38     31.8     1.208      1.67
clinical2$ER.pos.1.yes.=1 174       79     85.2     0.451      1.67

Chisq= 1.7 on 1 degrees of freedom, p= 0.196

Není, i když je tam trend. Nyní to zkusíme se skupinami definovanými shlukováním, kterým jsme v kapitole Objevování skupin tvořili na datech heatmapu. Heatmapa sice vnitřně aplikovala shlukovací algoritmus, ale my to musíme udělat znovu abychom získali dendrogram, ze kterého pak vyextrahujeme příslušnost ke skupinám.

> eukl2 <- dist(X[,intersect(colnames(X),top100)])
> hclust2 <- hclust(eukl2)
> plot(hclust2)

> groups2 <- cutree(hclust2, k=2)# delime na dve skupiny
> head(groups2)
4000471 4000473 4000475 4000477 4000480 4000482
1 2 2 2 2 1

Nyní analýza přežití s novými skupinami:
> surv.plot(survfit(Surv(rfs, rfs.event)~groups2))

Další úlohy k procvičení:
1) Udělejte podobnou analýzu s top200 a top500 geny
2) Poté udělejte podobnou analýzu s HER2

Nyní vše zkusíme spojit. Modelování pomocí Coxova modelu. Aplikujeme normalizaci, median clustering a IQR dělení.
Vypočítáme madián a IQR exprese každého genu.
> med<-median(X)
> iqr<-IQR(X)
> X2<-(X-med)/iqr

Má gen ESR1 nějaký vliv na dobu přežití do relapsu (RFS)?
> coxph(Surv(rfs, rfs.event)~X2[,"ESR1"])
Call:
coxph(formula = Surv(rfs, rfs.event) ~ X2[, "ESR1"])

coef exp(coef) se(coef) z p
X2[, "ESR1"] -0.00414 0.996 0.0231 -0.179 0.86

Likelihood ratio test=0.03 on 1 df, p=0.858 n= 253, number of events= 118

ESR1 nemá vliv na RFS (p = 0.86)

Nyní hledáme geny, které mají významný vliv na relepse-free-survival:
> surv.res<-c()
> for (i in c(1:ncol(X2)))
+ {
+ temp<-coxph(Surv(rfs, rfs.event)~X2[,i])
+ a<-summary(temp)
+ surv.res<-rbind(surv.res, c(colnames(X2)[i],a$coefficients))
+ }
> colnames(surv.res)<-c("gene",colnames(a$coefficients))

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity