невозможно прочитать CSV-файл, сохраненный с кодировкой "UTF-8-SIG" - PullRequest
0 голосов
/ 18 октября 2019

Я получил данные, которые я сканировал, используя Scrapy, которая сохраняет как файл csv с кодировкой utf-8-sig. В данных много разных специальных символов: корейский, русский, китайский, испанский, ..., символ звезды (★), и это ?, и это ? ...

Таким образом, Scrapy может сохранить, и яможете просматривать их на Notepad ++ или в приложениях типа CSVFileView. Но когда я загружаю в R, используя mydata <- read.csv(<path_to_file>, fileEncoding="UTF-8-SIG", header=FALSE), я получаю эту ошибку:

Error in file(file, "rt", encoding = fileEncoding) : 
  unsupported conversion from 'UTF-8-SIG' to ''

Если я не укажу кодировку, я могу загрузить, но символы станут такими, как ☠и первыйК заголовку столбца добавляется ï..

Какую кодировку выбрать для включения всех символов?

1 Ответ

1 голос
/ 18 октября 2019

Поскольку входные данные уже закодированы как UTF-8, вы должны использовать аргумент encoding, чтобы прочитать файл как есть. Использование fileEncoding попытается перекодировать файл.

mydata <- read.csv(<path_to_file>, encoding="UTF-8", header=FALSE)
...