E-learningová učebnice

Matematická biologie

Slovník | Vyhledávání | Mapa webu

Základy informatiky pro biologyAnalýza dat v R Příklad komplexní analýzy dat Část 2: Skupiny plodin na základě nutričních hodnot

Cvičebnice jazyka R | Algoritmizace a programování | Analýza dat v R |

Rozšířené základy R |

Výstupy z výukové jednotky | Nevýhody R | Rozšířené ovládání R |

Módy ovládání R | Načítání a ukládání | Příkazy v R | Výrazy a operátory |

R jako programovací jazyk |

Objekty | Funkce a skripty | Cykly a podmínky |

Větvení podmínkou | Cyklus for | Zjednodušení / zrychlení for cyklu |

Nápověda | Literatura | Příklady k procvičení |

Datové struktury |

Výstupy z výukové jednotky | Vektory |

Seřazení | Práce s numerickým vektorem | Práce s vektorem znakových řetězců | Práce s logickým vektorem |

Matice a pole | Seznam (list) | Datová tabulka | Příklady k procvičení |

Úprava a transformace dat v R |

Výstupy z výukové jednotky | Načítání a ukládání dat | Přidávání, odstraňování a transformace a rekódování proměnných | Reorganizace datových tabulek | Spojování datových tabulek | Agregace | Sumarizace | Příklady k procvičení |

Grafické výstupy R |

Základní balíky pro analýzu dat v R | Výstupy z výukové jednotky | Tradiční grafika |

Grafické okno a systém koordinát | Více grafů v jednom okně | Graf v grafu |

Grid grafika |

Další grid funkce |

Trellis grafy | Ukládání grafů | Příklady k procvičení |

Základy optimální práce v R |

Výstupy z výukové jednotky | Jak se píše dobrý skript | Další materiály k optimálnímu skriptování |

Příklad komplexní analýzy dat |

Část 1: Výnos v Čechách a na Moravě | Část 2: Skupiny plodin na základě nutričních hodnot | Část 3: Skupiny krajů a plodin na základě výnosů | Zobrazení výsledků - heatmapa |

Úvod do Bioconductor |

Instalace Bioconductoru a balíků |

Propojení C a R |

Výstupy z výukové jednotky | Odkazování na C funkci v R | Datové struktury v C | C++ funkce v R | Další materiály k propojení R a C | Příklady k procvičení |

Tvorba R balíku |

Výstupy z výukové jednotky | Struktura R balíku |

DESCRIPTION | NAMESPACE | Adresář R | Nápověda |

Finální tvorba R balíku | Další materiály k tvorbě R balíků |

Databázové systémy v biomedicíně | Teoretické základy informatiky | Výpočetní matematické systémy |

Část 2: Skupiny plodin na základě nutričních hodnot

Do kolika skupin bychom mohli rozdělit plodiny na základě nutričního složení jejich produktů (obsah cukrů, tuků, proteinů a vlákniny)?

Tento problém vyřešíme pomocí analýzy hlavních komponent - PCA.

Existují dvě funkce pro PCA:

princomp() – R-mode PCA, vlastní čísla, více pozorování než parametrů
prcomp() – Q-mode PCA, singulární rozklad

Informace o nutričním složení se nachází v souboru plodiny, ve sloupcích 6 až 9. Aplikujeme funkci prcomp(), nejdříve ale přejmenujeme názvy řádku podle jména plodin, aby se nám v grafu pěkně zobrazily:

> rownames(plodiny)<-plodiny[,1]

> pr1<-prcomp(plodiny[,6:9])

Funkce biplot() vykreslí plodiny v prvních dvou komponentech a zároveň efekt, jaký mají jednotlivé nutriční proměnné na rozdělení plodin:

> biplot(pr1)

Jednoznačně vidíme, že například řepka olejná je odlehlá hodnota a vliv na to má její velký obsah olejů (proměnná tuky). Ječmen, pšenice, žito, oves a triticale tvoří samostatnou skupinu s vysokým podílem karbohydrátů.

Dle výsledků PCA tedy můžeme říct, že plodiny se dělí na tři hlavní skupiny.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity