R removewords tm рассматривает файл стоп-слов как регулярное выражение, а не дословно - PullRequest
0 голосов
/ 10 июля 2019

Как я могу заставить removeWords из библиотеки (tm) взять каждое слово дословно (буквально) из списка стоп-слов, а не как регулярное выражение?

Предположим, у меня есть файл stopwordlist.txt, содержащий символы, которые могут быть неверно истолкованы как регулярные выражения:

 e.g.
 "
 .net
 ...
 \
 ***p<

Это мой код

library(tm)
...
custom_stopwords <- read.delim2("stopwordlist.txt", header = FALSE, sep = "\n", quote = "", fill = TRUE, comment.char = "")
...
corpus = tm_map(corpus, removeWords, custom_stopwords$V1)

Я бы ожидал, что removeWords будет принимать каждую строку как дословное стоп-слово, например, чтобы удалить каждое вхождение слова "например". а не слово "эрго", когда принимается как регулярное выражение. Наличие некоторых специальных символов сбивает с толку переводчика, говоря, что это недопустимое регулярное выражение.

...