Typy dat
Data reprezentují sledované veličiny, respektive znaky, a proto i typy dat odpovídají typům veličin. Kvalitativní neboli kategoriální (qualitative, categorical) data lze řadit do kategorií, ale nelze je kvantifikovat, respektive jednotlivým kategoriím lze přiřadit číselné kódy, které však nemají logickou souvislost s úrovní sledovaného znaku. Jako příklad můžeme uvést pohlaví, přítomnost viru HIV v krvi, užívání drog nebo barvu vlasů. Naopak, kvantitativní neboli numerická (quantitative, numerical) data můžeme charakterizovat číselnou hodnotou.
Kvalitativní data lze dále dělit do následujících skupin:
- Binární data (binary data) mohou nabývat pouze dvou hodnot. Většinou jsou to data typu ano/ne. Příkladem binárních dat je např. přítomnost diabetu (osoba s diabetem / osoba bez diabetu), pohlaví (muž/žena), stav (ženatý/svobodný). Číselně se obvykle kódují pomocí číslic 0 (ne) a 1 (ano).
- Nominální data (nominal data) obsahují více kategorií, které nelze vzájemně seřadit (neexistuje u nich přirozené pořadí jednotlivých hodnot) a u nichž nemá smysl ptát se na relaci větší/menší. Příkladem nominálních dat je např. krevní skupina (A/B/AB/0), stát EU (Belgie / … / Česká republika / … / Velká Británie), stav (ženatý / svobodný / rozvedený / vdovec).
- Ordinální data (ordinal data) také obsahují více kategorií, na rozdíl od nominálních dat je však lze vzájemně seřadit. U ordinálních dat má smysl ptát se na relaci větší/menší. Příkladem ordinálních dat je např. stupeň bolesti (mírná/střední/velká/nesnesitelná), spotřeba cigaret (nekuřák / ex-kuřák / občasný kuřák / pravidelný kuřák), stadium maligního onemocnění (I/II/III/IV).
Kvantitativní data lze také dále dělit:
- Spojitá data (continuous data) mohou nabývat jakýchkoliv hodnot v určitém rozmezí (intervalu). Příkladem spojitých dat je výška a hmotnost osob, délka časového období od narození do smrti, velikost nádoru nebo teplota.
- Diskrétní data (discrete data) mohou nabývat pouze spočetně mnoha hodnot. Při číselné reprezentaci jsou taková data na reálné ose zobrazena pomocí izolovaných bodů. Příkladem diskrétních dat je počet krevních buněk v 1 ml krve, počet králíků v králíkárně, počet hospitalizací pro srdeční slabost, počet krvácivých epizod za rok u pacienta s hemofilií nebo počet dětí v rodině.
Kvantitativní data můžeme rozlišovat také dle toho, jestli je měříme na intervalové nebo poměrové stupnici. V případě intervalové stupnice se při srovnání jakýchkoliv dvou hodnot můžeme ptát na otázku, o kolik jednotek se tyto dvě hodnoty liší. Můžeme se tedy ptát na rozdíl, nikoliv ale na podíl dvou hodnot, a to z toho důvodu, že u intervalové stupnice je nulová hodnota na místě daném konvencí, které nemusí vyjadřovat absenci daného znaku. Nelze se tedy ptát, kolikrát je jedna hodnota větší než druhá. Typickým příkladem je teplota měřená ve stupních Celsia, kde se můžeme ptát, o kolik stupňů je dnes tepleji než bylo včera, ale nemá smysl se ptát na to, kolikrát je dnes tepleji než včera (nula stupňů Celsia není počátek stupnice, připouštíme zde i záporné hodnoty). Poměrová stupnice má nulovou hodnotu na místě, které odpovídá nepřítomnosti sledovaného znaku, a umožňuje nám tak se ptát i na otázku, kolikrát je jedna hodnota větší než druhá. Kromě podílu se samozřejmě můžeme u poměrové stupnice ptát i na rozdíl dvou hodnot. Příkladem poměrových dat jsou již zmiňované výška a váha osob, velikost nádoru nebo počet krevních buněk v 1 ml krve.
Data lze samozřejmě pro analýzu převádět (zjednodušovat) ze spojitých na diskrétní, případně ordinální. Je to výhodné zejména kvůli lepší interpretaci výsledků, ale také kvůli snazší práci s daty a jejich jednodušší analýze. Je třeba si však uvědomit, že agregace kvantitativních dat do kategorií (např. kategorizace věku do desetiletých věkových skupin) znamená ztrátu části informace uložené v datech, kterou nejsme schopni bez primárních dat zpětně rekonstruovat, a která v případě testování hypotéz vede většinou ke snížení schopnosti testu rozhodnout o platnosti nebo neplatnosti studované hypotézy.
Je třeba si také uvědomit, že záznam skutečnosti nikdy není dokonalý a data tedy mohou mít v různých oblastech různou kvalitu. Variabilitu pozorovanou v datech lze rozdělit na dvě složky, informaci a chybu měření. S obojím se lze vypořádat s pomocí statistických metod, obecně však platí, že chybu danou experimentem (samotným měřením hodnot) se snažíme ještě před začátkem experimentu minimalizovat.