Получение нежелательных символов для апострофа при чтении данных из «|»(труба) отдельный текстовый файл в R - PullRequest
0 голосов
/ 14 ноября 2018

Я пытаюсь прочитать данные из текстового файла, который содержит данные в следующем формате:

583550348352212992|Thu Apr 02 08:43:39 +0000 2015|Ambulance progress 'not fast enough' http://bbc.in/1P1AJyX
583406140337164288|Wed Apr 01 23:10:37 +0000 2015|Children’s hospital builds sleep app http://bbc.in/1BO9jlZ

Я использую функцию read.table следующим образом:

bbchealth <- read.table(file=".../bbchealth.txt", 
                    sep="|", 
                    header = F, 
                    quote="", 
                    fill=F, 
                    stringsAsFactors = F,
                    numerals ="no.loss",
                    col.names = c("TweetId", "Date and Time", "Tweet"))

Когда я читаю файл, я вижу это:

583550348352212992 Thu Apr 02 08:43:39 +0000 2015 Ambulance progress 'not fast enough' http://bbc.in/1P1AJyX
583406140337164288 Wed Apr 01 23:10:37 +0000 2015 Children’s hospital builds sleep app http://bbc.in/1BO

Как вы можете видеть, апостроф в "Children s" был изменен на ’.

Thisэто тот случай, когда появляется апостроф (даже в перевернутом виде). ​​

574407194961039360|Sun Mar 08 03:12:01 +0000 2015|Frankie the dog ‘sniffs out cancer’ http://bbc.in/1COjVHM

читается как

574407194961039360 Sun Mar 08 03:12:01 +0000 2015 Frankie the dog ‘sniffs out cancer’ http://bbc.in/1COjVHM

Здесь преобразуется в ‘ и в ’.

Как я могу гарантировать, что эти символы читаются как есть.

1 Ответ

0 голосов
/ 15 ноября 2018

Попробуйте encoding="UTF-8" параметр в read.table().

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...