Question

У меня есть файл формата * sales.fea, который я использую для обмена данными между python и R.

В RI используйте следующую команду:

df = as.data.frame(feather::read_feather("sales.fea"))

В Python я использовал это:

df = feather.read_dataframe("sales.fea")

Каков самый быстрый / лучший способ загрузки данных из этого файла в память в экземпляр Spark, управляемый с pyspark?

НадеюсьЯ не хочу использовать pandas для загрузки данных, потому что это segfaults для моего файла пера 19 ГБ, созданного из 45 ГБ CSV.

Я думаю, что Spark такой модный, и перо тоже, и я ожидаю более естественный способ, чемпроходит через неэффективные временные решения.

dkapitan · Answer 1 · 19 декабря 2018

Возможно, вы можете рассмотреть вопрос о переходе на формат паркета?Выглядит более подходящим для вашего варианта использования, см. В чем разница между пером и паркетом?

Rubin bhandari · Answer 2 · 21 декабря 2018

из pyspark import SparkContext

sc = SparkContext("local", "App Name")
sql = SQLContext(sc)

, затем используйте createDataFrame, как показано ниже:

spark_df = sql.createDataFrame(pandas_df)

user3401493 · Answer 3 · 01 декабря 2018

Вы можете преобразовать кадр данных pandas в кадр данных Spark следующим образом.

from pyspark.sql import SQLContext, Row
sqlContext = SQLContext(sc)
spark_df = sqlContext.createDataFrame(pandas_df)

Как читать пера файл изначально?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как читать пера файл изначально?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы