Удалить определенные слова и символы из df - PullRequest
0 голосов
/ 01 февраля 2019

У меня есть такая структура данных, 39 строк

        text.
  "A" OR "B" OR "C"
  "C" OR "D" OR "E"

и «черный список» слов, которые я хочу удалить, которые начинаются и заканчиваются символом ". (200 слов) вот пример:

   blackList
      "A"
      "D"

я хочу удалить их из исходного кадра данных, получив:

        text.
    OR "B" OR "C"
    "C" OR OR "E"

как я могу это сделать? Я пытался с помощью removeWords, ноон не читает символ ".

Ответы [ 2 ]

0 голосов
/ 01 февраля 2019

Мы могли бы создать шаблон, вставив все элементы из черного списка вместе с "|"в качестве сворачиваемого аргумента, а затем удалите все из них.

df$text <- gsub(paste0(blacklist$blackList, collapse = "|"), "", df$text)

df
#            text
#1  OR "B" OR "C"
#2 "C" OR  OR "E"

data

df <- data.frame(text = c('"A" OR "B" OR "C"','"C" OR "D" OR "E"'))
blacklist <- data.frame(blackList = c('"A"', '"D"'))
0 голосов
/ 01 февраля 2019

gsub('\"A\"', "", '"A" OR "B" OR "C"')

экранируйте кавычки обратной косой чертой и используйте gsub

...