Slovník | Vyhledávání | Mapa webu
 
Základy informatiky pro biologyAnalýza dat v R Grafické výstupy R Základní balíky pro analýzu dat v R

Logo Matematická biologie

Základní balíky pro analýzu dat v R

V předcházejících kapitolách jsme si uváděli různé specializované balíky pro úpravy dat (reshape, car), nebo grafiku(lattice, trellis). Ovšem, mezi úpravou dat a grafickým výstupem leží samotná analýza dat, která má za úkol odpovědět na vědeckou hypotézu, která je daným experimentem sledována.

Existuje samozřejmě obrovské množství balíků pro analýzu dat, můžeme téměř říct, že balíků je tolik, kolik existuje metod násobeno počtem oborů, ve kterém jsou tyto metody aplikovány. Nebudeme zde upozorňovat na balíky k úzce specializovaným metodám, ale máme pro Vás seznam balíků, které by jste obecně v analýzách mohli použít (obzvlášť, pracujete-li ve medicíně nebo biologii):

Úpravy dat

  • plyr (Tools for splitting, applying and combining data) - Tento balík obsahuje sadu nástrojů pro aplikaci funkcí na datové struktury, sumarizace a agregace, která staví na již známých funkcích (např. ze skupiny apply). 
  • reshape, reshape2 - Tyto balíky stavějí na balíku plyr a poskytují funkce pro úpravu a přeuspořádání datových tabulek. reshape2 je novější verze reshape.
  • stringr (Make it easier to work with strings) - Balík poskytující jednotné prostředí pro práci s funkcemi pro manipulaci se znakovými řetězci.

Analýza přežití

  • survival - Základní balík pro analýzu přežití, obsahuje snad všechny důležité funkce pro KM křivky, fitování parametrických i semiparametrických modelů, testy a grafy.

Regrese a modelování

  • rms(Regression Modeling Strategies) od Franka Harrella. - Původně se tento balík jmenoval Design. Je to komplexní balík funkcí pro regresní modelování, testování, odhad, validace, grafiku, predikci, binární a ordinální logistické regresní modely... a mnohem víc! Frank Harrell je profesor biostatistiky na Vanderbiltově Univerzitě, má vynikající balíky, jejichž algoritmům a výsledkům můžeme opravdu věřit. Je to náš nejoblíbenější autor R balíků!

Vícerozměrná analýza

  • cluster: Cluster Analysis Extended Rousseeuw et al - Základní balík pro shlukování, obsahuje mnoho hierachických i nehierarchických shlukovacích algoritmů.

Různé utility pro analýzu dat:

  • Hmisc (Harrell Miscellaneous) od Franka Harrella - Obsahuje řadu funkcí užitečných pro analýzu dat, grafiky vyššího stupně, užitkových operací, funkce pro výpočet velikosti vzorku a sílu testu, import a export datových souborů, odhad chybějících hodnot, moderní tvorbu tabulek, různé metody shlukování, manipulace řetězců znaků, konverze R objektů do LaTeX kódu, a překódování proměnných. 

Grafy

  • ggplot2 (An Implementation of the Grammar of Graphics) 
  • VennDiagram (Generate high-resolution Venn and Euler plots) - Vytváří Vennovy diagramy a Eulerovy grafy.
  • gplots (Various R Programming Tools for Plotting Data) - Obsahuje různé vylepšené grafické funkce. Za zmínku stojí rozhodně funkce heatmap.2(), která umožňuje tvorbu kvalitních heatmap publikační kvality s klíčem k barvám!.

 

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity