merge
Sloučit dva datové rámce
merge {base} | Dokumentace R v češtině |
Popis
Sloučit dva datové rámce pomocí společných sloupců nebo názvů řádků nebo provádět jiné verze operací spojování databáze.
Použití
merge(x, y, ...)
## Výchozí S3 metoda:
merge(x, y, ...)
## S3 metoda pro třídu 'data.frame'
merge(x, y, by = intersect(names(x), names(y)),
by.x = by, by.y = by, all = FALSE, all.x = all, all.y = all,
sort = TRUE, suffixes = c(".x",".y"), no.dups = TRUE,
incomparables = NULL, ...)
Argumenty
x, y |
datové rámce nebo objekty, které mají být konvertovány na jeden. |
by, by.x, by.y |
specifikace sloupců používaných pro sloučení. Viz ‘Detaily’. |
all |
logical; |
all.x |
logical; pokud je |
all.y |
logical; analogické k |
sort |
logical. Má se výsledek na |
suffixes |
znakový vektor délky 2, který určuje přípony, které mají být použity k vytvoření jedinečných názvů sloupců ve výsledku, které se nepoužívají pro sloučení (objevující sa v |
no.dups |
proměnná typu logical indikující, že |
incomparables |
hodnoty, které nelze spárovat. Viz |
... |
argumenty, které mají být předány metodám nebo z nich. |
Detaily
merge
je generická funkce, jejíž hlavní metodoa je pro datové rámce: výchozí metoda konvertuje své argumenty na datové rámce a volá metodu "data.frame"
.
Ve výchozím nastavení jsou datové rámce sloučeny na sloupcích se názvy, které mají oba, ale samostatné specifikace sloupců mohou být zadány pomocí by.x
a by.y
. Řádky ve dvou datových rámcích, které odpovídají specifikovaným sloupcům, jsou extrahovány a spojeny dohromady. Pokud existuje více než jedna shoda, všechny možné shody přispívají vždy jedním řádkem. Pro přesný význam ‘shody’, viz match
.
Sloupce ke sloučení lze zadat podle názvu, čísla nebo vektoru typu logical: název "row.names"
nebo číslo 0
specifikuje názvy řádků. Pokud je zadáno pomocí názvů, musí jednoznačně a nezaměnitelně odpovídat pojmenovanému sloupci na vstupu.
Pokud by
nebo obojí by.x
i by.y
májí délku 0 (vektor s délkou nula nebo NULL
), výsledek, r
, je karteziánský produkt x
a y
, tzn., dim(r) = c(nrow(x)*nrow(y), ncol(x) + ncol(y))
.
Pokud je all.x
true, všechny případy x
beze shody jsou připojeny k výsledku také, s vyplněním NA
v odpovídajících sloupcích y
; analogicky pro all.y
.
Pokud sloupce v datových rámcích, které se nepoužívají při slučování, mají nějaké společné názvy, budou tyto mít přípony
(".x"
a ".y"
ve výchozím nastavení) připojené, aby se pokusily vytvořit jedinečné názvy výsledku. Není-li to možné, dojde k chybě.
Pokud název sloupce by.x
odpovídá jednomu z y
, a pokud je no.dups
true (jako výchozí hodnota), verze y také dostane příponu, aby se vyhlo se duplicitním názvům sloupců ve výsledku.
Složitost použitého algoritmu je úměrná délce odpovědi.
V terminologii databáze SQL výchozí hodnota all = FALSE
dává přirozené spojení, zvláštní případ vnitřního spojení. Zadání all.x = TRUE
dává levé (vnější) spojení, all.y = TRUE
pravé (vnější) spojení, a oba (all = TRUE
) a (plné) vnější spojení. DBMS neodpovídají záznamům NULL
, tak jako incomparables = NA
v R.
Hodnota
Datový rámec. Řádky jsou ve výchozím nastavení lexikograficky seřazeny na společných sloupcích, ale pro sort = FALSE
jsou v neurčenom pořadí. Sloupce jsou společné sloupce, po kterých následují zbývající sloupce v x
a pak ty v y
. Pokud shoda obsahuje názvy řádků, přidá se nalevo sloupec s dalšími znaky nazvaný Row.names
, a ve všech případech má výsledek ‘automatické’ názvy řádků.
Poznámka
Toto je určeno pro práci s datovými rámci s vektorovými sloupci: některé aspekty pracují s datovými rámci obsahujícími matice, ale ne všechny.
V současnosti nejsou pro vstupy přijímány dlouhé vektory, a jsou tedy omezeny na méně než 2^31 řádků. Toto omezení platí také pro výsledek pro 32bitové platformy.
Viz také
data.frame
, by
, cbind
.
dendrogram
pro třídu, která má metodu merge
.
Příklady
authors <- data.frame(
## I(*) : použijte sloupce znaků názvů pro získání rozumného řazení
surname = I(c("Tukey", "Venables", "Tierney", "Ripley", "McNeil")),
nationality = c("US", "Australia", "US", "UK", "Australia"),
deceased = c("yes", rep("no", 4)))
authorN <- within(authors, { name <- surname; rm(surname) })
books <- data.frame(
name = I(c("Tukey", "Venables", "Tierney",
"Ripley", "Ripley", "McNeil", "R Core")),
title = c("Exploratory Data Analysis",
"Modern Applied Statistics ...",
"LISP-STAT",
"Spatial Statistics", "Stochastic Simulation",
"Interactive Data Analysis",
"An Introduction to R"),
other.author = c(NA, "Ripley", NA, NA, NA, NA,
"Venables & Smith"))
(m0 <- merge(authorN, books))
(m1 <- merge(authors, books, by.x = "surname", by.y = "name"))
m2 <- merge(books, authors, by.x = "name", by.y = "surname")
stopifnot(exprs = {
identical(m0, m2[, names(m0)])
as.character(m1[, 1]) == as.character(m2[, 1])
all.equal(m1[, -1], m2[, -1][ names(m1)[-1] ])
identical(dim(merge(m1, m2, by = NULL)),
c(nrow(m1)*nrow(m2), ncol(m1)+ncol(m2)))
})
## "R core" z autorů chybí a objevuje se pouze zde:
merge(authors, books, by.x = "surname", by.y = "name", all = TRUE)
## příklad použití 'incomparables'
x <- data.frame(k1 = c(NA,NA,3,4,5), k2 = c(1,NA,NA,4,5), data = 1:5)
y <- data.frame(k1 = c(NA,2,NA,4,5), k2 = c(NA,NA,3,4,5), data = 1:5)
merge(x, y, by = c("k1","k2")) # NA's match
merge(x, y, by = "k1") # NA's match, so 6 rows
merge(x, y, by = "k2", incomparables = NA) # 2 rows