Как решить "Ошибка в gsub" с помощью removeWords в R - PullRequest
0 голосов
/ 03 февраля 2020

У меня есть датафрейм, содержащий твиты. Я работаю над удалением стоп-слов, и по этой причине я использовал:

stopWords <- stopwords("en")
tweets_sample$text<-removeWords(tweets_sample$text,stopWords)

В любом случае, я получил

Error in gsub(sprintf("(*UCP)\\b(%s)\\b", paste(sort(words, decreasing = TRUE),  : 
input string 1 is invalid UTF-8

Что бы объяснить такую ​​ошибку?

Ответы [ 2 ]

1 голос
/ 03 февраля 2020

Похоже на проблему с кодировкой. Попробуйте Encoding(tweets_sample$text) <- "UTF-8", а затем функцию removeWords.

0 голосов
/ 03 февраля 2020

похоже, что в вашей первой строке указан недопустимый UTF-8. вы можете использовать iconv для замены любых неконвертируемых байтов в вашем тексте:

text <- "your text"
Encoding(te\xE7xt) <- "UTF-8"
iconv(text, "UTF-8", "UTF-8",sub='') 

"текст"

...