Я пытаюсь извлечь серию слов из серии документов .txt с помощью функции stringr 'str_extract_all'.Все работает хорошо, за исключением того, что в результатах, которые я получаю, не отображаются символы Юникода (что хорошо в текстах UTF-8, из которых извлекается информация).Кто-нибудь знает, почему это происходит?
[Я использую RStudio в Windows 10.1]
Я преобразовал мой корпус из 5 .txt документов (романов) в кадр данных черезследующая команда:
tbl <- list.files(pattern = "*.txt") %>%
map_chr(~ read_file(.)) %>%
data_frame(text = .)
Символы Юникода выглядят нормально на 'tbl', но когда я запускаю функцию str_extract_all, они исчезают.Вот мой код:
uppercase <- sapply(str_extract_all(tbl, '(?<!^|\\.\\s|\\?\\s|\\!\\s)[A-Z][a-z]+'), paste)
Вот результат, который я получаю:
[1,] "For"
[2,] "Ant"
[3,] "Pati"
и т. Д.
Когда следует читать:
[1,] "For"
[2,] "Antón"
[3,] "Patiño"
и т. Д.
Это ошибка в строке или кто-нибудь сталкивался с чем-то подобным раньше?Любая помощь будет высоко ценится.Спасибо!