Получение акцентированных символов, распознаваемых при построении пользовательского словаря стоп-слов в R - PullRequest
0 голосов
/ 24 октября 2019

Я создаю собственный словарь стоп-слов в R для удаления акцентированных символов. Я думал, что использование ссылки на юникод позволит это, но это не работает, и у меня возникают проблемы с продумыванием различных решений, особенно потому, что некоторые из них не могут быть покрыты запуском лексикона из другого языка.

Текущий код:

en_custom_stopwords <- bind_rows(data_frame(word = c("8217", "8216", "le", "de", "en", "el", "8221", "8220", "los", "039", "se", 
                                                     "aei", "\\\\U+00E4"), lexicon = c("custom")), stop_words)

Эти слова встречаются обычными символами.

...