Как я могу заставить removeWords из библиотеки (tm) взять каждое слово дословно (буквально) из списка стоп-слов, а не как регулярное выражение?
Предположим, у меня есть файл stopwordlist.txt, содержащий символы, которые могут быть неверно истолкованы как регулярные выражения:
e.g.
"
.net
...
\
***p<
Это мой код
library(tm)
...
custom_stopwords <- read.delim2("stopwordlist.txt", header = FALSE, sep = "\n", quote = "", fill = TRUE, comment.char = "")
...
corpus = tm_map(corpus, removeWords, custom_stopwords$V1)
Я бы ожидал, что removeWords будет принимать каждую строку как дословное стоп-слово, например, чтобы удалить каждое вхождение слова "например". а не слово "эрго", когда принимается как регулярное выражение. Наличие некоторых специальных символов сбивает с толку переводчика, говоря, что это недопустимое регулярное выражение.