Analýza dat v R
Že se bez statistické nebo matematické analýzy svých dat žádný výzkumník neobejde, je zřejmé tak jako fakt, že k tomu potřebuje počítač a vhodný analytický software. Kdo se analýzou dat zabývá denně, ani zdaleka si nevystačí s omezenou nabídkou tabulkového editoru Microsoft EXCEL, musí sáhnout po programech specializovaných.
Takové programy se dělí na dvě skupiny: uzavřené a otevřené (open-source).
Uzavřené programy mají danou strukturu s omezenou nabídkou funkcí a analytických metod, do jejichž kódu nelze nahlížet (a tedy ani ho zkontrolovat), natožpak upravovat, nebo dokonce přidávat funkce vlastní. Pro využití všech funkcí potřebných k analýze tak často musí uživatel přeskakovat mezi rozličnými softwary - najde-li je vůbec - což vyžaduje nekonečné úpravy formátů datových souborů a ztrátu času. Navíc tyto softwary umožňují pouze omezené vytváření analytických workflows, protože neumožňují vytváření řádkových skriptů. Příkladem těchto programů je STATISTICA.
Analyzujete-li data denně, tyto programy Vás začnou brzy omezovat, obzvlášť proto, že mnohé analytické úkony nemůžete plně automatizovat a s každým novým datovým souborem se musíte znovu "proklikat" analýzou, což je podstatná ztráta času. Úpravy dat v tabulkovém prostředí těchto programů jsou zdlouhavé, nepohodlné, a navíc jsou velice častým zdrojem chyb v datech, kterých si nikdo nemusí všimnout.
Příkladem budiž neslavně-slavný skandál z roku 2006 (Hutson, 2010), kdy výzkumníci z Dukeovy univerzity v Durhamu - v Severní Karolíně, USA, publikovali v prestižním časopise Nature Medicine výsledky svého výzkumu (Potti a kol., 2006) predikce odpovědi na chemoterapii. Na základě slibných výsledků tohoto výzkumy bylo zpuštěno několik klinických studií, které měly být jedním z prvních kroků k presonalizované medicíně. Když se jiný tým pokusil výzkum na stejných datech zrekapitulovat, zjistil, že v původním výzkumu došlo k několika závažným chybám v úpravě dat - mezi nimi k posunu označení sloupců datového souboru o jednu pozici. Tento posun však úplně změnil výsledky a zjistilo se, že pacienti v probíhající klinické studii zřejmě dostávají chemoterapii, která jim spíše škodí než pomáhá, což vedlo k pozastavení tří z těchto klinických studií.
Jak vidíte, chyby se nevyhýbají ani nejlepším světovým výzkumníkům.
Úspěšný analytik používá otevřený software, který mu šetří čas, minimalizuje chyby a zároveň posouvá jeho výzkum tím, že mu umožňuje:
- Co největší automatizaci celého procesu analýzy včetně úprav dat mimo tabulkové editory
- Psát vlastní skripty, funkce a sdílet je s ostatními výzkumníky
- Nahlížet do kódů kterékoliv funkce a případně je upravovat (je tedy open-source)
- Používat jakékoliv metody, které jsou v dané oblasti výzkumu aplikovány, včetně těch nejnovějších
- Tvořit jednoduše jakékoliv grafy publikační kvality
- Nainstalovat ho na jakoukoliv hlavní platformu (Windows, Unix, MacOS)
Takových softwarů je více, vzpomeňme například Matlab nebo STATA. Jen jeden z nich je ale úplně zdarma, a (snad nejen) proto používaný stovkami tisíc výzkumníků po celém světě ve všech výzkumných odvětvích.
Je to R - program pro statistickou analýzu dat (www.r-project.org).
Díky své popularitě jsou nové metody implementovány často ihned jejich autory přímo do R a sdíleny přes systém balíků, které lze stáhnout a nainstalovat. Nemusíte tedy čekat na novou aktualizaci svého uzavřeného programu, která ostatně tuto metodu ani nemusí obsahovat.
Cílem tohoto učebního textu je naučit Vás efektivně používat R v celém procesu analýzy dat od úpravy datových souborů až po tvorbu tabulek a obrázků pro publikaci.
Autor: Mgr. Eva Budinská, Ph.D. (budinska@iba.muni.cz)