Это происходит, когда ваш вводимый текст не в кодировке UTF-8. Вы можете прочитать о кодировке символов здесь .
Другая хорошая справка: this
Я обнаружил, что лучший способ справиться с этими проблемами использовать stringr::str_conv
.
mydocs <- c("doc1", "doc2", "doc3")
stringr::str_conv(mydocs, "UTF-8")
Если у вас есть символы не-UTF-8, вы получите предупреждение, но вектор символов, который выходит с другой стороны, будет пригоден для использования.
Сделайте это с вашим docs
вектором перед вызовом `DocumentTermMatrix.