Úprava a transformace dat v R
Zdálo by se, že R není vhodný nástroj pro úpravu a agregaci dat, protože tabulku dat přímo nevidíme.
Někteří analytici doporučují úpravu dat v jiném programu, který na to má standardizované funkce a R používat pouze pro analýzu. S tím ale nemůžeme souhlasit.
Proč tedy upravovat data v R? Uvedeme několik důvodů:
- Odpadá problém přenosu souborů z programu do programu (problémy s formáty)
- R obsahuje mnoho účinných nástrojů pro úpravu i agregaci dat
- Vyvinuté skripty jednoduše uložíme a můžeme je aplikovat v jediném příkazu na stejná data bez nutnosti opakovat všechny operace (v případě, že se změní zdrojová data, nemusíte znovu všechno předělávat)
- To vede k značné úspoře Vášho času
Typy datových úprav můžeme rozdělit na
- Přidávání, odstraňování, transformace a rekódování proměnných
- Reorganizace datových tabulek (změna uspořádání, extrakce částí tabulky)
- Spojování různých datových tabulek
- Agregace - úprava datových souborů (sjednocování řádků, sloupců ...)
- Sumarizace - vytváření popisných statistik a frekvenčních tabulek
Sumarizace je jakýmsi podtypem agregace.
V dalších kapitolách si podrobně popíšeme funkce pro jednotlivé datové úpravy v R.