Как выполнить объединение, используя несколько столбцов в качестве разных критериев строки? - PullRequest
0 голосов
/ 10 января 2020

Я хотел бы выполнить сложное объединение, которое рассматривает несколько столбцов как различные виды критериев.

Я хочу назначить каждому фрукту категорию, основанную на том, содержит ли он строку, строки он может содержать и строки, которые он НЕ содержит.

У меня есть вектор фруктов:

head(fruit) 
[1] "apple"       "apricot"     "avocado"     "banana"      "bell pepper" "bilberry" 

И критерии назначения каждого фрукта подробно описаны здесь:

 fruitAssignment <- data.frame(assignment = c('Apple','Berry','Black','Melon','Melon','Melon','Currant'),
       contains = c('apple','berry','black','honeydew','melon','cantaloupe','currant'),
       mayContain = c(NA,'black',NA,NA,NA,NA,NA),
       doesNotContain = c(NA,NA,'berry',NA,NA,NA,NA))

  assignment   contains mayContain doesNotContain
1      Apple      apple       <NA>           <NA>
2      Berry      berry      black           <NA>
3      Black      black       <NA>          berry
4      Melon   honeydew       <NA>           <NA>
5      Melon      melon       <NA>           <NA>
6      Melon cantaloupe       <NA>           <NA>
7    Currant    currant       <NA>           <NA>

Исключения:

  • Если нет заданий, соответствующих критериям, я бы хотел назначить фрукт просто как «Фрукт».
  • Если есть несколько заданий, которые соответствуют критериям, я также хотел бы назначить его как «Фрукт».
  • Критерии не должны быть чувствительными к регистру.

Таким образом, этот пример объединения будет выглядеть следующим образом:

 dplyr::sample_n(fruit, size=5)
         fruit assignment
1   redcurrant    Currant
2 blackcurrant      Fruit
3    pineapple      Apple
4   blackberry      Berry
5      coconut      Fruit

Независимо от того, какие пакеты используются для выполнения это нормально.

1 Ответ

1 голос
/ 10 января 2020

Я не думаю, что объединение здесь уместно, это скорее задача классификации. Использование регулярных выражений для поиска совпадений между поисковым запросом и таблицей классификации:

fruit <- c("redcurrant", "blackcurrant", "pineapple", "blackberry", "coconut")

fruitAssignment <- data.frame(assignment = c('Apple','Berry','Black','Melon','Melon','Melon','Currant'),
                              contains = c('apple','berry','black','honeydew','melon','cantaloupe','currant'),
                              mayContain = c(NA,'black',NA,NA,NA,NA,NA),
                              doesNotContain = c(NA,NA,'berry',NA,NA,NA,NA),
                              stringsAsFactors = FALSE)

library(dplyr)
library(tibble)

fun <- function(fruit, fruitAssignment) {

  fruitAssignment[,2:4] <- apply(fruitAssignment[,2:4],
                                 2,
                                 function(x, fruit) sapply(x, grepl, fruit, ignore.case = TRUE),
                                 fruit = fruit)
  fruitAssignment[is.na(fruitAssignment)] <- FALSE

  x <- fruitAssignment %>%
    filter(!doesNotContain, contains | mayContain)

  if (nrow(x) == 1)
    return(x$assignment)
  "Fruit"

}

sapply(fruit, fun, fruitAssignment) %>%
  enframe() %>%
  setNames(c("fruit", "assignment"))

# A tibble: 5 x 2
  fruit        assignment
  <chr>        <chr>     
1 redcurrant   Currant   
2 blackcurrant Fruit     
3 pineapple    Apple     
4 blackberry   Berry     
5 coconut      Fruit 
...