Как читать пера файл изначально? - PullRequest
0 голосов
/ 01 декабря 2018

У меня есть файл формата * sales.fea, который я использую для обмена данными между python и R.

В RI используйте следующую команду:

df = as.data.frame(feather::read_feather("sales.fea"))

В Python я использовал это:

df = feather.read_dataframe("sales.fea")

Каков самый быстрый / лучший способ загрузки данных из этого файла в память в экземпляр Spark, управляемый с pyspark?

НадеюсьЯ не хочу использовать pandas для загрузки данных, потому что это segfaults для моего файла пера 19 ГБ, созданного из 45 ГБ CSV.

Я думаю, что Spark такой модный, и перо тоже, и я ожидаю более естественный способ, чемпроходит через неэффективные временные решения.

Ответы [ 3 ]

0 голосов
/ 19 декабря 2018

Возможно, вы можете рассмотреть вопрос о переходе на формат паркета?Выглядит более подходящим для вашего варианта использования, см. В чем разница между пером и паркетом?

0 голосов
/ 21 декабря 2018

из pyspark import SparkContext

sc = SparkContext("local", "App Name")
sql = SQLContext(sc)

, затем используйте createDataFrame, как показано ниже:

spark_df = sql.createDataFrame(pandas_df)
0 голосов
/ 01 декабря 2018

Вы можете преобразовать кадр данных pandas в кадр данных Spark следующим образом.

from pyspark.sql import SQLContext, Row
sqlContext = SQLContext(sc)
spark_df = sqlContext.createDataFrame(pandas_df)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...