Как читать твит / текст с многоточием в R - PullRequest
0 голосов
/ 22 ноября 2018

Я пытаюсь прочитать твиты из разных текстовых файлов, а затем посчитать количество символов в каждом твите.

Код, который я использую для чтения отдельных текстовых файлов, следующий:

nbc <- readLines(".../nbchealthnews.txt", 
                    encoding = "utf-10") %>%
map(., str_split_fixed, "\\|", 3) %>%
map_df(., as_tibble)

Затем я хочу запустить

nbc_tweetLength <- nchar(nbc$V3)

Однако я получаю следующееошибка:

> nbc_tweetLength <- nchar(nbc$V3)
Error in nchar(nbc$V3) : invalid multibyte string, element 271

Элемент 271 равен

> nbc$V3[271]
[1] "RT @JuliaSommerfeld: Tales of chucking big jobs are the new lady porn RT @ELLEmagazine: What's REALLY causing women to burn out before 30: \u0085"

, а соответствующий фактический твит в текстовом файле -

RT @JuliaSommerfeld: Tales of chucking big jobs are the new lady porn RT @ELLEmagazine: What's REALLY causing women to burn out before 30: …

Как я могу прочитать твит как онявляется.То есть читать многоточие, которое появляется после двоеточия, как есть, чтобы текст твита оставался неизменным?

Если это невозможно, как я могу обойти проблему подсчета общего количества символовв каждом твите при учете специальных символов, таких как \x85 и \u0092 (последний появляется в другом твите, когда он читается в R; в исходном тексте это вьющийся апостроф ().

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...