Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Úvod do vícerozměrné analýzy dat Smysl a cíle vícerozměrné analýzy dat

Logo Matematická biologie

Smysl a cíle vícerozměrné analýzy dat

Většina dat pořízených při vědeckém výzkumu v jakémkoli vědním oboru je vícerozměrná, protože nám zpravidla nestačí u daných subjektů či objektů zjistit pouze jedinou vlastnost, ale celou řadu charakteristik či proměnných, jako například hmotnost, barva, stáří apod. Sledovanými subjekty mohou být pacienti s určitým typem onemocnění, lidé vystavení nějakém rizikovému faktoru (např. znečištění ovzduší), sportovci atd., zatímco mezi sledované objekty mohou patřit například vybrané lokality, řeky, archeologická naleziště, živočišné druhy, státy apod. Zřídkakdy nám stačí analyzovat každou proměnnou zvlášť, protože pro úplné pochopení vztahů mezi jednotlivými subjekty či objekty musíme analyzovat většinu nebo dokonce všechny proměnné současně. V tom nám mohou pomoci vícerozměrné metody, které jsou představeny v následujících kapitolách těchto učebních textů.

Vícerozměrné metody nám umožňují znázornit a popsat vícerozměrná data, zjišťovat vztahy mezi jednotlivými proměnnými a mezi danými subjekty resp. objekty. Existuje mnoho způsobů dělení vícerozměrných metod do skupin podle různých kritérií, žádné však není uznáváno celosvětově. Vícerozměrné metody jsou navíc často komplexní, takže je není ani možné rozdělit do separátních „škatulek“. V těchto učebních textech jsou metody rozděleny podle cíle, kterého chceme vícerozměrnou analýzou dosáhnout:

  1. Testování hypotéz o vícerozměrných datech – například:
    • ověření, zda má vliv pohlaví a typ léku na počet uzdravených pacientů s daným onemocněním
    • zjištění, zda je rozdílná spotřeba elektrické energie ve městech a na vesnicích během týdne a o víkendu
    • výzkum vlivu teploty a množství srážek na přírůstek biomasy listnatých a jehličnatých dřevin
  2. Vytvoření shluků subjektů, objektů nebo proměnných – například:
    • vytvoření skupin diagnóz onemocnění s podobnými léčebnými náklady
    • vytvoření skupin lokalit podle výskytu určitých druhů rostlin a živočichů
    • vytvoření skupin genů a subjektů na základě dat genové exprese
  3. Redukce vícerozměrných dat – například:
    • vytvoření souhrnného skóre odpovědi pacientů na radioterapii z původních několika proměnných
    • výběr oblastí mozku, které nejvíce odlišují pacienty s neuropsychiatrickým onemocněním od zdravých subjektů
    • vytvoření menšího počtu nových proměnných z původních dat, které nám umožní znázornit vícerozměrná data ve 2-D či 3-D grafech
  4. Klasifikace subjektů či objektů – například:
    • diagnostika onemocnění (tzn. zařazení nového subjektu do skupiny pacientů či kontrol např. podle obrázku mozku)
    • rozhodnutí, zda banka poskytne či neposkytne hypotéku danému subjektu na základě jeho příjmů, rodinné situace atd.
    • zařazení nově objeveného živočišného druhu do systému živočichů

Přestože rozdělení vícerozměrných metod podle cíle analýzy se zdá jednoznačným kritériem dělení, i v tomto případě mohou některé metody patřit do více „škatulek“. Například některé metody lze použít pro shlukování i pro klasifikaci dat (např. metodu nejbližšího souseda apod.).

I když se vícerozměrné metody používají na nejrůznější úlohy a analytické problémy, jedno mají společné. Je velmi obtížné a většinou dokonce nemožné tyto úlohy řešit ručně, protože výpočetní nároky vícerozměrných metod bývají značné, a tak implementace a aplikace těchto metod vyžaduje využití softwarových nástrojů. K analýze vícerozměrných dat je hojně využíván volně dostupný software R (http://www.r-project.org/) s nejširší nabídkou vícerozměrných metod a pěkných grafických výstupů. Z komerčních softwarových nástrojů je k dispozici software SPSS (http://www-01.ibm.com/software/cz/analytics/spss/) či STATISTICA (http://www.statsoft.com/), které jsou uživatelsky přátelštější než software R, protože mají grafické uživatelské rozhraní, obsahují však méně vícerozměrných metod a často mají omezené nastavení metod. Dále existuje celá řada softwarových nástrojů specializovaných na vícerozměrné analýzy v určitých vědních oborech, jako například software Syntax 2000 (http://www.exetersoftware.com/cat/syntax/syntax.html) určený pro shlukové a ordinační analýzy ekologických a taxonomických dat, software Canoco (http://www.canoco5.com/) zaměřený na ordinační analýzy ekologických dat a software PAST (http://folk.uio.no/ohammer/past/) vyvinutý pro analýzu paleontologických dat.

Po představení cílů vícerozměrných metod a stručném zmínění softwarových nástrojů, pomocí nichž můžeme vícerozměrné metody používat na hodnocení dat, se v následujících podkapitolách budeme věnovat vícerozměrným datům, jejich grafickému znázornění a problémům.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity