Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza genomických a proteomických dat Základní schémata statistické analýzy dat Porovnávání skupin Praktický příklad analýzy

Logo Matematická biologie

Praktický příklad analýzy

V tomto příkladu budeme podobně jako v předcházejících příkladech pracovat v softvéru R - pro statistické spracování dat. Pro obeznámaní s tímto programem doporučujeme pročíst si výukový text Analýza dat v R. V dalším textu budeme předpokládat, že program R znáte. Všechny příkazy níže se zadávají v do příkazového řádku v R konzole.

Budeme pokračovat v práci se stejným příkladem experimentu porovnávajícího ER (estrogen receptor) pozitivní a ER negativní karcinomy prsu, který jsme používali v předcházejících kapitolách.

Tentokrát ale načteme soubor, který obsahuje již normalizovanou matici s genovou expresí všech vzorků.

Nejprve načteme soubor, který obsahuje matici s genovou expresí [ke stažení ZDE - soubor nutno rozbalit]:

> load("GSE20194_MDACC_Expression.rdata")
> ls()

[1] "X"

Nyní zkontrolujeme správnost načtení datového souboru:
1) typ objektu
> is(X)
[1] "matrix"    "array"     "structure" "vector"

2) dimenze objektu
> dim(X)
[1]   278 13271

3) samotný náhled prvních pěti řádků (vzorky) a sloupců (geny)
> X[1:5,1:5]
A1CF    A2BP1      A2M   A4GALT    A4GNT
GSM505327_19893_AB01778470_17038.CEL.gz 5.626439 5.210402 7.868409 5.022798 5.889645
GSM505328_19893_AB01778504_17045.CEL.gz 5.911184 4.934100 9.027167 5.151001 6.021435
GSM505329_19893_AB01778510_17030.CEL.gz 5.789104 5.195655 8.017994 5.323679 6.001322
GSM505330_19893_AB01779182_17047.CEL.gz 6.455712 5.195689 7.923466 5.220235 6.105855
GSM505331_19893_AB01779189_17018.CEL.gz 6.069822 5.220019 7.369173 5.077837 5.849491


Nyní načteme soubor obsahující klinické informace k jednotlivým vzorkům [ke stažení ZDE]
> clinical<-read.csv("GSE20194_MDACC_Sample_Info.csv", header=TRUE)

Znovu zkontrolujeme správnost načtení datového souboru, s pomocí funkce head() a dim().
> head(clinical,n=3L)
Sample.name       title                   CEL.file
1 19893_AB01778470_17038 BR_FNA_M157 19893_AB01778470_17038.CEL
2 19893_AB01778504_17045 BR_FNA_M196 19893_AB01778504_17045.CEL
3 19893_AB01778510_17030 BR_FNA_M176 19893_AB01778510_17030.CEL
source.name     organism Age  Race ER_status
1 Sample ID -- 157, fine-needle aspiration, breast cancer cells homo sapiens  57 white         P
2 Sample ID -- 196, fine-needle aspiration, breast cancer cells homo sapiens  69 asian         P
3 Sample ID -- 176, fine-needle aspiration, breast cancer cells homo sapiens  77 mixed         P
pCR_vs_RD PR_status  molecule  label                                  description platform
1        RD         P total RNA biotin MAQC_Distribution_Status: MAQC_T -- Training    GPL96
2        RD         P total RNA biotin MAQC_Distribution_Status: MAQC_T -- Training    GPL96
3        RD         N total RNA biotin MAQC_Distribution_Status: MAQC_T -- Training    GPL96
Additional.information Tbefore Nbefore BMNgrd ER HER2.Status Her2.IHC Her2.FISH Histology
1                     NA       2       0      2 90           N        2      1.95       IDC
2                     NA       2       1      2 90           N        0      1.95   IMC/IDC
3                     NA       4       1      2 10           P        2       3.6       IDC
Treatment.Code                      Treatments.Comments
1           TFAC      98-240 Taxol (80mg/m2 q wk), FAC x4
2           TFAC           Taxol 80 mg/m2 weekly x12, FAC
3           TFAC        Taxol 80 mg/m2 weekly x12, FAC x1

> dim(clinical)
[1] 278  25

Soubor je načten správně, můžeme přistoupit k dalším analýzám, které uvádíme v jednotlivých podkapitolách.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity