UnicodeDecodeError: код 'utf-8' c не может декодировать байт 0xf6 в позиции 125: неверный стартовый байт в R с Reticulate - PullRequest
0 голосов
/ 23 января 2020

Доброе утро, ребята, я писал небольшой скрипт для управления данными в R, но я не понимаю, почему, когда я импортирую огромный файл CSV (3,5 ГБ) в R, он не работает. Чтобы быстро решить эту проблему, я решил использовать pandas с reticulate.

#Package from python
pd<-import("pandas", as="pd")
#leggo il file csv con pandas
pd$read_csv("C:\\Users\\Befrancesco\\Desktop\\X_dataset\\x_file_name.csv, error_bad_lines= FALSE, encoding = "utf-8" )

R возвращает мне этот тип ошибки:

Error in py_call_impl(callable, dots$args, dots$keywords) : 
  UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf6 in position 105: invalid start byte 

Где я ошибаюсь?

Заранее спасибо за ваш ответ.

Франческо

1 Ответ

1 голос
/ 23 января 2020

Возможно, ваша кодировка не UTF-8. Попробуйте некоторые другие кодировки, такие как ISO-8859-1, в своем вызове read_csv, например,

pd$read_csv("C:\\Users\\Befrancesco\\Desktop\\X_dataset\\x_file_name.csv, error_bad_lines= FALSE, encoding = "ISO-8859-1")

См. Этот ответ для получения дополнительной информации о различных кодировках: { ссылка }

...