Читать огромный набор данных с кодировкой R и UTF-8? - PullRequest
0 голосов
/ 31 октября 2018

Я использую RStudio и у меня огромный набор данных (30 м строк х 5 столбцов; цифры и текст) в формате .csv. Когда я пытаюсь импортировать этот набор данных, «невозможно» прочитать его с read.csv, поэтому я установил library(sqldf). С помощью команды read.csv.sql я могу открыть свой набор данных, что занимает ~ 45 минут. Пакет sqlddf может читать его, но не имеет опции read.csv fileEncoding = 'UTF-8', поэтому, когда я читаю этот файл, многие символы Юникода ошибочны, такие испанские слова, как «Camión» или «España».

Кто-нибудь знает о правильной библиотеке или команде, которая позволяет мне импортировать этот огромный набор данных с кодировкой UTF-8?

...