Příklad komplexní analýzy dat
V této kapitole si ukážeme, jak vypadá analýza dat v R od načtení dat, přes jejich úpravy, statistickou analýzu až po grafickou reprezentaci. Předpokladem porozumění některých částí analýzy je znalost základů biostatistiky a vícerozměrných analytických metod.
K dispozici máme tři datové soubory (klikněte na název pro stažení souboru):
uroda.txt - tabulka s hektarovými výnosy 14 plodin ve 14 krajech České republiky
kraje.txt - tabulka krajů, jejich velikosti v hektarech, populace, jestli se nacházejí na hranici ČR a do kterého regionu patří
plodiny.txt - tabulka obsahující název každé plodiny, její kategorizaci dle typu a výživnou hodnotu
Cílem analýzy je odpovědět na tyto otázky:
- Mají jednotlivé druhy plodin stejný výnos v Čechách a na Moravě? Pokud ne, u kterých plodin se výnosy liší?
- Kolik skupin krajů a plodin můžeme rozlišit na základě výnosů?
- Do kolika skupin bychom mohli rozdělit plodiny na základě nutričního složení jejich produktů (obsah cukrů, tuků, proteinů a vlákniny)?
Prvním krokem každé analýzy je obvykle načtení dat. To provedme pro každou tabulku zvlášť, s pomocí funkce read.delim():
> uroda <- read.delim("uroda.txt", header=TRUE, row.names=1)
> kraje <- read.delim("kraje.txt", header=TRUE, row.names=1)
> plodiny <- read.delim("plodiny.txt", header=TRUE, row.names=1)
Dále provedeme kontrolu načtení dat s pomocí kontroly dimenze a zobrazením prvních 5 řádků a sloupců tabulek:
> dim(uroda)
[1] 14 14
> dim(kraje)
[1] 14 5
> dim(plodiny)
[1] 14 9
> uroda[1:5,1:5]
plodina1 plodina2 plodina3 plodina4 plodina5
kraj1 5.58 4.08 5.04 4.57 3.19
kraj2 5.23 3.63 4.58 4.11 3.79
kraj3 4.74 3.19 4.39 3.46 4.00
kraj4 4.86 3.24 4.49 3.50 4.09
kraj5 4.78 3.25 4.44 3.47 4.07
> kraje[1:5,1:5]
Name size people border Region
kraj1 Hl. m. Praha 496 2343 N Cechy
kraj2 Středočeský 11016 102 N Cechy
kraj3 Jihočeský 10056 62 Y Cechy
kraj4 Plzeňský 7561 73 Y Cechy
kraj5 Karlovarský 3341 92 Y Cechy
> plodiny[1:5,1:5]
název typ obilniny Energia_kj
plodina1 pšenice ozimní obiloviny Y 1506
plodina2 pšenice jarní obiloviny Y 1506
plodina3 ječmen ozimní obiloviny Y 1474
plodina4 ječmen jarní obiloviny Y 1474
plodina5 žito obiloviny Y 1414
Energia_kcal
plodina1 360
plodina2 360
plodina3 352
plodina4 352
plodina5 338
Dále následuje definování kroků analýzy, použitých funkcí a výstupů (tabulky, sumarizace, grafy...), které povedou k zodpovězení výše uvedených otázek.
1. Kontrola dat: měli bychom zkontrolovat typ proměnných, existenci nesmyslných hodnot, a podobně. Nejlépe s pomocí sumarizačních statistik a grafů.
2. Pro odpověď na otázku 1 použijeme:
- Statistickou metodu testování hypotéz: Například aplikujeme Wilcoxonův neparametrický test pro porovnání výnosů plodin v Čechách a na Moravě, u každé z plodin zvlášť. Získáme tak statistiky a p-hodnoty, které nám pomohou rozhodnout se, jestli jsou mezi těmito regiony rozdíly.
- Korekci na mnohonásobné testovaní: Protože jsme testovali více plodin, musíme provést korekci na mnohonásobné testování. Aplikujeme Benjamini-Hochbergovu proceduru.
- Nakonec aplikujeme hladinu významnosti a rozhodneme o platnosti hypotézy o rozdíle ve výnosu plodin mezi regiony.
3. Pro odpověď na otázku 2 a 3 použijeme metody shlukování.
4. Nakonec provedeme grafické znázornění výsledků.