Slovník | Vyhledávání | Mapa webu
 
Základy informatiky pro biologyAnalýza dat v R

Analýza dat v R

Že se bez statistické nebo matematické analýzy svých dat žádný výzkumník neobejde, je zřejmé tak jako fakt, že k tomu potřebuje počítač a vhodný analytický software. Kdo se analýzou dat zabývá denně, ani zdaleka si nevystačí s omezenou nabídkou tabulkového editoru Microsoft EXCEL, musí sáhnout po programech specializovaných.

Takové programy se dělí na dvě skupiny: uzavřené a otevřené (open-source).

Uzavřené programy mají danou strukturu s omezenou nabídkou funkcí a analytických metod, do jejichž kódu nelze nahlížet (a tedy ani ho zkontrolovat), natožpak upravovat, nebo dokonce přidávat funkce vlastní. Pro využití všech funkcí potřebných k analýze tak často musí uživatel přeskakovat mezi rozličnými softwary - najde-li je vůbec - což vyžaduje nekonečné úpravy formátů datových souborů a ztrátu času. Navíc tyto softwary umožňují pouze omezené vytváření analytických workflows, protože neumožňují vytváření řádkových skriptů. Příkladem těchto programů je STATISTICA.

Analyzujete-li data denně, tyto programy Vás začnou brzy omezovat, obzvlášť proto, že mnohé analytické úkony nemůžete plně automatizovat a s každým novým datovým souborem se musíte znovu "proklikat" analýzou, což je podstatná ztráta času.  Úpravy dat v tabulkovém prostředí těchto programů jsou zdlouhavé, nepohodlné, a navíc jsou velice častým zdrojem chyb v datech, kterých si nikdo nemusí všimnout.

Příkladem budiž neslavně-slavný skandál z roku 2006 (Hutson, 2010), kdy výzkumníci z Dukeovy univerzity v Durhamu - v Severní Karolíně, USA, publikovali v prestižním časopise Nature Medicine výsledky svého výzkumu (Potti a kol., 2006) predikce odpovědi na chemoterapii. Na základě slibných výsledků tohoto výzkumy bylo zpuštěno několik klinických studií, které měly být jedním z prvních kroků k presonalizované medicíně. Když se jiný tým pokusil výzkum na stejných datech zrekapitulovat, zjistil, že v původním výzkumu došlo k několika závažným chybám v úpravě dat - mezi nimi k posunu označení sloupců datového souboru o jednu pozici. Tento posun však úplně změnil výsledky a zjistilo se, že pacienti v probíhající klinické studii zřejmě dostávají chemoterapii, která jim spíše škodí než pomáhá, což vedlo k pozastavení tří z těchto klinických studií.

Jak vidíte, chyby se nevyhýbají ani nejlepším světovým výzkumníkům.

Úspěšný analytik používá otevřený software, který mu šetří čas, minimalizuje chyby a zároveň posouvá jeho výzkum tím, že mu umožňuje:

  1. Co největší automatizaci celého procesu analýzy včetně úprav dat mimo tabulkové editory
  2. Psát vlastní skripty, funkce a sdílet je s ostatními výzkumníky
  3. Nahlížet do kódů kterékoliv funkce a případně je upravovat (je tedy open-source)
  4. Používat jakékoliv metody, které jsou v dané oblasti výzkumu aplikovány, včetně těch nejnovějších
  5. Tvořit jednoduše jakékoliv grafy publikační kvality
  6. Nainstalovat ho na jakoukoliv hlavní platformu (Windows, Unix, MacOS)

Takových softwarů je více, vzpomeňme například Matlab nebo STATA. Jen jeden z nich je ale úplně zdarma, a (snad nejen) proto používaný stovkami tisíc výzkumníků po celém světě ve všech výzkumných odvětvích.

Je to R - program pro statistickou analýzu dat (www.r-project.org).

Díky své popularitě jsou nové metody implementovány často ihned jejich autory přímo do R a sdíleny přes systém balíků, které lze stáhnout a nainstalovat. Nemusíte tedy čekat na novou aktualizaci svého uzavřeného programu, která ostatně tuto metodu ani nemusí obsahovat.

Cílem tohoto učebního textu je naučit Vás efektivně používat R v celém procesu analýzy dat od úpravy datových souborů až po tvorbu tabulek a obrázků pro publikaci.

Autor: Mgr. Eva Budinská, Ph.D. (budinska@iba.muni.cz)

komentář k obsahu

komentář ke struktuře

 Odeslání komentáře 

* ... povinné položky
 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity