Analýza genomických a proteomických datAnalýza genomických a proteomických dat Základní schémata statistické analýzy dat Porovnávání skupin Testování hypotéz u genomických a proteomických dat

Analýza genomických a proteomických dat |

Současné výzvy a technologie genomiky a proteomiky |

Výstupy z výukové jednotky | Úvod | Moderní technologie analýzy genomu a proteomu a jejich datové výstupy |

Mikročipy | Hmotnostní spektrometrie | 2D gelová elektroforéza | Shrnutí |

Bioinformatika a statistika v analýze genomických a proteomických dat |

Typy dat a potřeba jejich úpravy | Základní kroky analýzy genomických a proteomických dat | Standardy analýzy genomických a proteomických dat | Software pro analýzu |

Příklady k procvičení |

Princip a rozdělení DNA mikročipů |

Analýza obrazu (kvantifikace signálu) DNA mikročipů |

Výstupy z výukové jednotky | Úvod | cDNA mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Oligonukleotidové mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Příklady k procvičení | Literatura |

Úprava a normalizace dat cDNA mikročipů |

Výstupy z výukové jednotky | Úvod | Kontrola kvality |

Kontrola kvality v rámci spotů | Kontrola kvality a normalizace v rámci mikročipu |

Procento nekvalitních měření | Systematické odchylky |

Normalizace cDNA mikročipů a vytvoření finální datové matice |

Normalizace v rámci mikročipu |

Normalizace mezi mikročipy |

Sumarizace a vytvoření finálního datového souboru |

Příklady k procvičení | Literatura |

Úprava a normalizace dat oligonukleotidových mikročipů |

Výstupy z výukové jednotky | Úvod | AffyBatch - R datová struktura pro oligonukleotidové mikročipy | Kontrola kvality |

Kontrola na úrovni sond | Kontrola na úrovni mikročipů |

Kontrola kvality na základě parametrů Affymetrix | Kontrola kvality s pomocí základních diagnostických grafů | Kontrola kvality na základě modelu úrovně sondy (PLM - probe level model) |

Normalizace a sumarizace |

Normalizace v rámci mikročipu |

MAS 5.0 metoda korekce na pozadí | RMA konvoluce |

Normalizace mezi mikročipy | Sumarizace |

Metody sumarizace v rámci jednoho mikročipu | Metody sumarizace vícečipové |

Příklady k procvičení | Literatura |

Základní schémata statistické analýzy dat |

Výstupy z výukové jednotky | Porovnávání skupin |

Výpočet velikosti účinku | Testování hypotéz u genomických a proteomických dat |

SAM - Significance Analysis of Microarrays | Limma - Linear Models for Analysis of Microarrays |

Praktický příklad analýzy |

Kontrola kvality | Analýza dat |

Objevování skupin |

Konsenzusové shlukování | Dynamické řezání stromu | Praktický příklad analýzy |

Predikce skupin |

Výběr proměnných | Typy klasifikátorů | Odhad výkonnosti klasifikátoru |

Analýza přežití |

Praktický příklad analýzy |

Příklady k procvičení |

Analýza arrayCGH |

Metody analýzy arrayCGH | Princip segmentačních metod | Porovnání metod |

Analýza genových sad |

Databáze genových sad/pathways | Nástroje pro analýzu genových sad |

Příklad metody celého seznamu | Příklad metody dělící hranice | Porovnání metod | Metody smíšené |

Studijní materiály a software |

Analýza dat hmotnostní spektrometrie |

Time-of-flight spektrometrie |

Úprava základních dat |

Liquid Chromatography MS/MS |

Zpracování dat | Databázové vyhledávání | Rekonstrukce sady proteinů |

2D gelová elektroforéza |

DIGE | Úprava dat |

Veřejně dostupné databáze dat |

Analýza sekvencí DNA |

Testování hypotéz u genomických a proteomických dat

Testování hypotéz je nepochybně jednou z nejoblíbenějších částí statistiky rozšířené v mnoha vědních oborech. Jde o standardizovanou a dobře interpretovatelnou metodiku, která hraje v analýze genomických a proteomických dat důležitou roli. Zejména když hledáte odlišně exprimované geny/proteiny mezi skupinami. Máte-li nějaké předpoklady a chcete testovat, zda je to pravda, vyžadujete ve skutečnosti dvě výlučná tvrzení, která jsou ve statistice nazývaná hypotézy. Tvrzení, které říká: “Mezi testovanými skupinami není žádný rozdíl” se nazývá nulová hypotéza a tvrzení říkající: “Mezi testovanými skupinami je rozdíl” se nazývá alternativní hypotéza.

Pro seznámení se základy testování hypotéz doporučujeme prostudovat kapitolu učebních textů předmětu Biostatistika pro matematickou biologii, konkrétně kapitoly Úvod do testování hypotéz a Testování hypotéz o kvantitativních proměnných. V dalším textu budeme předpokládat znalosti z těchto kapitol.

Nulovou hypotézou v genomických a proteomických experimentech porovnávajících rozdíl v aktivitě genů nebo abundanci proteinů je v tomto případě tvrzení: "Mezi skupinami není žádný rozdíl v expresi(abundanci) daného genu(proteinu)".

Abychom byli přesnější - testujeme střední hodnoty dvou nezávislých výběrů, kde proměnná je právě gen g a hodnoty jeho exprese u jednotlivých vzorků jsou realizací náhodného výběru o rozsahu n₁: x₁, x₂, …, x_n₁ (u první z porovnávaných skupin) a na ní nezávislou realizací druhého náhodného výběru o rozsahu n₂: y₁, y₂, …, y_n₂ (u druhé z porovnávaných skupin).

Všimněte si, že se zde mluví o jediném genu (proteinu) - znamená to, že hypotézu testujeme u každého z genů/proteinů našeho experimentu! To je zdrojem problému, který se nazývá problém (mnoho-)násobného testování hypotéz (klikněte na odkaz pro detailní vysvětlení).

Ve skratce: používáme-li hladinu významnosti 5 % pro rozhodnutí o zamítnutí hypotézy (tzn. že exprese genu je odlišne exprimována mezi skupinami), testujeme-li 10 000 genů, tak 500 z nich (5 %) bude falešne pozitivních. Existují různé druhy korekce na mnohonásobné testování, v analýze genomických a proteomických dat se používají zejména:

korekce typu FWER (family-wise error rate) - kontroluje pravděpodobnost alespoň jedné chyby prvního druhu - falošně pozitivního (FP) výsledku FWER=PR(FP>0) - patří sem napr. Bonferonniho korekce
korekce typu FDR (false-discovery rate) - kontroluje očekávaný podíl falešně pozitivních (FP) výsledků mezi zamítnutými hypotézami (Z) FDR=E[FP/Z]- patří sem napr. Benjamini-Hochbergova korekce

FWER je mnohem striktnější a používá se v případě, že chceme, aby všechny vybrané geny/proteiny byly skutečně odlišné mezi skupinami, i za cenu toho, že některé skutečné označíme za falešně pozitivní. FDR je méně striktní a naopak se používá když chceme objevit co nejvíce skutečně pozitivních výsledků, i za cenu falešné pozitivity - to bývá v případě, že tyto geny slouží pro další analýzy jako například analýza genových sad.

Moderovaná T-statistika

U mikročipových dat nelze jednoduše aplikovat klasické statistické testy - zejména Studentův T-test, protože neplatí předpoklad homogenity rozptylů. Je známo, že geny s nízkou hodnotou exprese vykazují mnohem menší variabilitu než geny s vyššími hodnotami exprese, což není pouze reflexe biologie, ale také důsledek technických omezení (jen těžko lze oddělit šum od genu s nízkou expresí). Následkem je vyšší podíl statisticky významných rozdílů v genové expresi právě u genů s nízkou expresí v experimentu, i když tyto rozdíly nejsou biologicky relevantní.

Statistiky genů s nízkou expresí a s vysokou expresí se tak nedají porovnat. V analýze těchto dat se proto používa moderovaná T-statistika, která je definována jako

kdea jsou střední hodnoty rozdělení genové exprese skupiny 1 a skupiny 2, s_g je směrodatná odchylka. s₀ je konstanta, o kterou se zvyšuje variabilita. Tato konstanta musí být zvolena tak, aby nezvyšovala variabilitu u vysoce exprimovaných genů.

My si dále představíme dvě metody, které používají moderovanou statistiku: SAM a limma.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity