V této kapitole si ukážeme, jak vypadá analýza dat v R od načtení dat, přes jejich úpravy, statistickou analýzu až po grafickou reprezentaci. Předpokladem porozumění některých částí analýzy je znalost základů biostatistiky a vícerozměrných analytických metod.

K dispozici máme tři datové soubory (klikněte na název pro stažení souboru):

uroda.txt - tabulka s hektarovými výnosy 14 plodin ve 14 krajech České republiky

kraje.txt - tabulka krajů, jejich velikosti v hektarech, populace, jestli se nacházejí na hranici ČR a do kterého regionu patří

plodiny.txt - tabulka obsahující název každé plodiny, její kategorizaci dle typu a výživnou hodnotu

Cílem analýzy je odpovědět na tyto otázky:

Mají jednotlivé druhy plodin stejný výnos v Čechách a na Moravě? Pokud ne, u kterých plodin se výnosy liší?
Kolik skupin krajů a plodin můžeme rozlišit na základě výnosů?
Do kolika skupin bychom mohli rozdělit plodiny na základě nutričního složení jejich produktů (obsah cukrů, tuků, proteinů a vlákniny)?

Prvním krokem každé analýzy je obvykle načtení dat. To provedme pro každou tabulku zvlášť, s pomocí funkce read.delim():

> uroda <- read.delim("uroda.txt", header=TRUE, row.names=1)
> kraje <- read.delim("kraje.txt", header=TRUE, row.names=1)
> plodiny <- read.delim("plodiny.txt", header=TRUE, row.names=1)

Dále provedeme kontrolu načtení dat s pomocí kontroly dimenze a zobrazením prvních 5 řádků a sloupců tabulek:
> dim(uroda)
[1] 14 14
> dim(kraje)
[1] 14 5
> dim(plodiny)
[1] 14 9

> uroda[1:5,1:5]
      plodina1 plodina2 plodina3 plodina4 plodina5
kraj1     5.58     4.08     5.04     4.57     3.19
kraj2     5.23     3.63     4.58     4.11     3.79
kraj3     4.74     3.19     4.39     3.46     4.00
kraj4     4.86     3.24     4.49     3.50     4.09
kraj5     4.78     3.25     4.44     3.47     4.07
> kraje[1:5,1:5]
               Name size people border Region
kraj1 Hl. m. Praha   496   2343      N Cechy
kraj2   Středočeský 11016    102      N Cechy
kraj3     Jihočeský 10056     62      Y Cechy
kraj4      Plzeňský 7561     73      Y Cechy
kraj5   Karlovarský 3341     92      Y Cechy
> plodiny[1:5,1:5]
                  název       typ obilniny Energia_kj
plodina1 pšenice ozimní obiloviny        Y       1506
plodina2 pšenice jarní obiloviny        Y       1506
plodina3 ječmen ozimní obiloviny        Y       1474
plodina4   ječmen jarní obiloviny        Y       1474
plodina5           žito obiloviny        Y       1414
         Energia_kcal
plodina1          360
plodina2          360
plodina3          352
plodina4          352
plodina5          338

Dále následuje definování kroků analýzy, použitých funkcí a výstupů (tabulky, sumarizace, grafy...), které povedou k zodpovězení výše uvedených otázek.

1. Kontrola dat: měli bychom zkontrolovat typ proměnných, existenci nesmyslných hodnot, a podobně. Nejlépe s pomocí sumarizačních statistik a grafů.

2. Pro odpověď na otázku 1 použijeme:

Statistickou metodu testování hypotéz: Například aplikujeme Wilcoxonův neparametrický test pro porovnání výnosů plodin v Čechách a na Moravě, u každé z plodin zvlášť. Získáme tak statistiky a p-hodnoty, které nám pomohou rozhodnout se, jestli jsou mezi těmito regiony rozdíly.
Korekci na mnohonásobné testovaní: Protože jsme testovali více plodin, musíme provést korekci na mnohonásobné testování. Aplikujeme Benjamini-Hochbergovu proceduru.
Nakonec aplikujeme hladinu významnosti a rozhodneme o platnosti hypotézy o rozdíle ve výnosu plodin mezi regiony.

3. Pro odpověď na otázku 2 a 3 použijeme metody shlukování.

4. Nakonec provedeme grafické znázornění výsledků.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity