Praktický příklad analýzy
V tomto příkladu budeme podobně jako v předcházejících příkladech pracovat v softvéru R - pro statistické spracování dat. Pro obeznámaní s tímto programem doporučujeme pročíst si výukový text Analýza dat v R. V dalším textu budeme předpokládat, že program R znáte. Všechny příkazy níže se zadávají v do příkazového řádku v R konzole.
Budeme pokračovat v práci se stejným příkladem experimentu porovnávajícího ER (estrogen receptor) pozitivní a ER negativní karcinomy prsu, který jsme používali v předcházejících kapitolách.
Tentokrát ale načteme soubor, který obsahuje již normalizovanou matici s genovou expresí všech vzorků.
Nejprve načteme soubor, který obsahuje matici s genovou expresí [ke stažení ZDE - soubor nutno rozbalit]:
> load("GSE20194_MDACC_Expression.rdata")
> ls()
[1] "X"
Nyní zkontrolujeme správnost načtení datového souboru:
1) typ objektu
> is(X)
[1] "matrix" "array" "structure" "vector"
2) dimenze objektu
> dim(X)
[1] 278 13271
3) samotný náhled prvních pěti řádků (vzorky) a sloupců (geny)
> X[1:5,1:5]
A1CF A2BP1 A2M A4GALT A4GNT
GSM505327_19893_AB01778470_17038.CEL.gz 5.626439 5.210402 7.868409 5.022798 5.889645
GSM505328_19893_AB01778504_17045.CEL.gz 5.911184 4.934100 9.027167 5.151001 6.021435
GSM505329_19893_AB01778510_17030.CEL.gz 5.789104 5.195655 8.017994 5.323679 6.001322
GSM505330_19893_AB01779182_17047.CEL.gz 6.455712 5.195689 7.923466 5.220235 6.105855
GSM505331_19893_AB01779189_17018.CEL.gz 6.069822 5.220019 7.369173 5.077837 5.849491
Nyní načteme soubor obsahující klinické informace k jednotlivým vzorkům [ke stažení ZDE]
> clinical<-read.csv("GSE20194_MDACC_Sample_Info.csv", header=TRUE)
Znovu zkontrolujeme správnost načtení datového souboru, s pomocí funkce head() a dim().
> head(clinical,n=3L)
Sample.name title CEL.file
1 19893_AB01778470_17038 BR_FNA_M157 19893_AB01778470_17038.CEL
2 19893_AB01778504_17045 BR_FNA_M196 19893_AB01778504_17045.CEL
3 19893_AB01778510_17030 BR_FNA_M176 19893_AB01778510_17030.CEL
source.name organism Age Race ER_status
1 Sample ID -- 157, fine-needle aspiration, breast cancer cells homo sapiens 57 white P
2 Sample ID -- 196, fine-needle aspiration, breast cancer cells homo sapiens 69 asian P
3 Sample ID -- 176, fine-needle aspiration, breast cancer cells homo sapiens 77 mixed P
pCR_vs_RD PR_status molecule label description platform
1 RD P total RNA biotin MAQC_Distribution_Status: MAQC_T -- Training GPL96
2 RD P total RNA biotin MAQC_Distribution_Status: MAQC_T -- Training GPL96
3 RD N total RNA biotin MAQC_Distribution_Status: MAQC_T -- Training GPL96
Additional.information Tbefore Nbefore BMNgrd ER HER2.Status Her2.IHC Her2.FISH Histology
1 NA 2 0 2 90 N 2 1.95 IDC
2 NA 2 1 2 90 N 0 1.95 IMC/IDC
3 NA 4 1 2 10 P 2 3.6 IDC
Treatment.Code Treatments.Comments
1 TFAC 98-240 Taxol (80mg/m2 q wk), FAC x4
2 TFAC Taxol 80 mg/m2 weekly x12, FAC
3 TFAC Taxol 80 mg/m2 weekly x12, FAC x1
> dim(clinical)
[1] 278 25
Soubor je načten správně, můžeme přistoupit k dalším analýzám, které uvádíme v jednotlivých podkapitolách.