Question

Я пытаюсь преобразовать кадр данных R, загруженный в кирпичи данных, в кадр данных sparklyr, но я думаю, что обычно используемая функция copy_to не справляется с размером файла. Файлы, которые мне нужно конвертировать, варьируются от 780 МБ до 4,7 ГБ.

Код:

chloedf<-copy_to(sc,Chloe)

и возвращена ошибка:

Error in writeBin(utfVal, con, endian = "big", useBytes = TRUE) : Error in writeBin(utfVal, con, endian = "big", useBytes = TRUE) : 
  attempting to add too many elements to raw vector
Error in writeBin(utfVal, con, endian = "big", useBytes = TRUE) : 
  attempting to add too many elements to raw vector
In addition: Warning message:
closing unused connection 11 (raw())

Raphael K · Answer 1 · 20 октября 2019

Похоже, copy_to() не предназначен для больших наборов данных .

Здесь есть несколько вариантов.

Вместо формата rds сохраните исходный кадр данных R в формате CSV. Затем вы можете прочитать его непосредственно в Spark, используя spark_read_csv(sc, "/path/to/mycsv.csv"). Это самый простой способ.
Попробуйте вместо этого использовать SparkR::createDataFrame().
Установите Apache Arrow на кластере Databricks и повторите попытку copy_to()команда. Здесь - некоторые инструкции по настройке.

записать большой файл RDS в sparklyr.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

записать большой файл RDS в sparklyr.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы