Analýza genomických a proteomických datAnalýza genomických a proteomických dat Základní schémata statistické analýzy dat Porovnávání skupin Testování hypotéz u genomických a proteomických dat

Analýza genomických a proteomických dat |

Současné výzvy a technologie genomiky a proteomiky |

Výstupy z výukové jednotky | Úvod | Moderní technologie analýzy genomu a proteomu a jejich datové výstupy |

Mikročipy | Hmotnostní spektrometrie | 2D gelová elektroforéza | Shrnutí |

Bioinformatika a statistika v analýze genomických a proteomických dat |

Typy dat a potřeba jejich úpravy | Základní kroky analýzy genomických a proteomických dat | Standardy analýzy genomických a proteomických dat | Software pro analýzu |

Příklady k procvičení |

Princip a rozdělení DNA mikročipů |

Analýza obrazu (kvantifikace signálu) DNA mikročipů |

Výstupy z výukové jednotky | Úvod | cDNA mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Oligonukleotidové mikročipy |

Kvantifikace signálu | Parametry kontroly kvality | Základní datová matice |

Příklady k procvičení | Literatura |

Úprava a normalizace dat cDNA mikročipů |

Výstupy z výukové jednotky | Úvod | Kontrola kvality |

Kontrola kvality v rámci spotů | Kontrola kvality a normalizace v rámci mikročipu |

Procento nekvalitních měření | Systematické odchylky |

Normalizace cDNA mikročipů a vytvoření finální datové matice |

Normalizace v rámci mikročipu |

Normalizace mezi mikročipy |

Sumarizace a vytvoření finálního datového souboru |

Příklady k procvičení | Literatura |

Úprava a normalizace dat oligonukleotidových mikročipů |

Výstupy z výukové jednotky | Úvod | AffyBatch - R datová struktura pro oligonukleotidové mikročipy | Kontrola kvality |

Kontrola na úrovni sond | Kontrola na úrovni mikročipů |

Kontrola kvality na základě parametrů Affymetrix | Kontrola kvality s pomocí základních diagnostických grafů | Kontrola kvality na základě modelu úrovně sondy (PLM - probe level model) |

Normalizace a sumarizace |

Normalizace v rámci mikročipu |

MAS 5.0 metoda korekce na pozadí | RMA konvoluce |

Normalizace mezi mikročipy | Sumarizace |

Metody sumarizace v rámci jednoho mikročipu | Metody sumarizace vícečipové |

Příklady k procvičení | Literatura |

Základní schémata statistické analýzy dat |

Výstupy z výukové jednotky | Porovnávání skupin |

Výpočet velikosti účinku | Testování hypotéz u genomických a proteomických dat |

SAM - Significance Analysis of Microarrays | Limma - Linear Models for Analysis of Microarrays |

Praktický příklad analýzy |

Kontrola kvality | Analýza dat |

Objevování skupin |

Konsenzusové shlukování | Dynamické řezání stromu | Praktický příklad analýzy |

Predikce skupin |

Výběr proměnných | Typy klasifikátorů | Odhad výkonnosti klasifikátoru |

Analýza přežití |

Praktický příklad analýzy |

Příklady k procvičení |

Analýza arrayCGH |

Metody analýzy arrayCGH | Princip segmentačních metod | Porovnání metod |

Analýza genových sad |

Databáze genových sad/pathways | Nástroje pro analýzu genových sad |

Příklad metody celého seznamu | Příklad metody dělící hranice | Porovnání metod | Metody smíšené |

Studijní materiály a software |

Analýza dat hmotnostní spektrometrie |

Time-of-flight spektrometrie |

Úprava základních dat |

Liquid Chromatography MS/MS |

Zpracování dat | Databázové vyhledávání | Rekonstrukce sady proteinů |

2D gelová elektroforéza |

DIGE | Úprava dat |

Veřejně dostupné databáze dat |

Analýza sekvencí DNA |

SAM - Significance Analysis of Microarrays

Moderovanou statistiku používá metoda Significance analysis of microarrays (SAM). Statistická významnost statistiky d_g je stanovena pomocí permutací původních dat a výpočtem očekávaného skóre (d_e(g)) v případě, že platí nulová hypotéza.

Gen nebo protein je tak označen za statisticky významný, splňuje-li podmínku |d_g - d_e(g) | > Δ.

Algoritmus popisuje následující obrázek:

Výpočet (odhad) očekávaného skóre d_ge probíhá následovně:

1. Pro každou permutaci i:

(i) Pro každý gen g vypočti dⁱ_g

(ii) Seřaď statistiky všech genů sestupně podle jejich hodnoty

2. Seřaď statistiky původního souboru a zjisti percentil rozložení, který představuje statistika d_gi genu g

3. Definuj očekávanou hodnotu statistiky d genu g v původním souboru jako průměr statistik dⁱ_gz permutovaných souborů na stejné percentilové pozici, jako originální d_g jak ilustruje schéma níže:

Máme-li očekávané hodnoty statistiky pro každý gen původního datového souboru, můžeme určit statisticky významné geny.

Gen se označí za statisticky významný, pokud platí, že |d_g - d_e(g) | > Δ, jak ukazuje obrázek níže Jak ale vybrat hodnotu Δ ?

Hodnota Δ se vybere na základě celkové FDR (False Discovery Rate), kterou daná hodnota poskytuje. Pro množinu různých Δ se vypočítá FDR a pak se vybere ta delta, FDR které odpovídá naší dopředu zvolené hladině významnosti. FDR se vypočítá jako:

kde t₁ a t₂ jsou dolní a horní hranice statistiky určeny zvolenou Δ. FDR tedy představuje průměrný počet genů, kterých d statistiky v permutacích i=1...p překročili tyto hranice (tedy byly významné), podělený počtem genů v původním souboru, kterých d statistiky překročili tyto hranice. Protože u permutací se očekává, že všechny významné geny jsou falešně pozitivní výsledky, jedná se tedy o odhad podílu falešně pozitivních ze všech označených za pozitivní v původním souboru, což je přesně definice FDR.

Zde bychom chtěli upozornit, že SAM neposkytuje pouze metodu k porovnání dvou skupin. Moderovat můžeme jakoukoliv statistiku a tedy SAM může být aplikován na jakékoliv testování hypotéz. Bioconductor balík samr poskytuje všechny metody, včetně analýzy časových řad:

> source("http://bioconductor.org")
> biocLite("samr")

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity