Я создаю собственный словарь стоп-слов в R для удаления акцентированных символов. Я думал, что использование ссылки на юникод позволит это, но это не работает, и у меня возникают проблемы с продумыванием различных решений, особенно потому, что некоторые из них не могут быть покрыты запуском лексикона из другого языка.
Текущий код:
en_custom_stopwords <- bind_rows(data_frame(word = c("8217", "8216", "le", "de", "en", "el", "8221", "8220", "los", "039", "se",
"aei", "\\\\U+00E4"), lexicon = c("custom")), stop_words)
Эти слова встречаются обычными символами.