Я пытаюсь прочитать твиты из разных текстовых файлов, а затем посчитать количество символов в каждом твите.
Код, который я использую для чтения отдельных текстовых файлов, следующий:
nbc <- readLines(".../nbchealthnews.txt",
encoding = "utf-10") %>%
map(., str_split_fixed, "\\|", 3) %>%
map_df(., as_tibble)
Затем я хочу запустить
nbc_tweetLength <- nchar(nbc$V3)
Однако я получаю следующееошибка:
> nbc_tweetLength <- nchar(nbc$V3)
Error in nchar(nbc$V3) : invalid multibyte string, element 271
Элемент 271 равен
> nbc$V3[271]
[1] "RT @JuliaSommerfeld: Tales of chucking big jobs are the new lady porn RT @ELLEmagazine: What's REALLY causing women to burn out before 30: \u0085"
, а соответствующий фактический твит в текстовом файле -
RT @JuliaSommerfeld: Tales of chucking big jobs are the new lady porn RT @ELLEmagazine: What's REALLY causing women to burn out before 30: …
Как я могу прочитать твит как онявляется.То есть читать многоточие, которое появляется после двоеточия, как есть, чтобы текст твита оставался неизменным?
Если это невозможно, как я могу обойти проблему подсчета общего количества символовв каждом твите при учете специальных символов, таких как \x85
и \u0092
(последний появляется в другом твите, когда он читается в R; в исходном тексте это вьющийся апостроф (’
).