Question

Я хотел бы сохранить огромный фрейм данных pyspark в виде таблицы Hive. Как я могу сделать это эффективно? Я хочу использовать saveAsTable (имя, формат = нет, режим = нет, partitionBy = нет, ** параметры) из pyspark.sql.DataFrameWriter.saveAsTable .

# Let's say I have my dataframe, my_df
# Am I able to do the following?
my_df.saveAsTable('my_table')

У меня вопрос, какие форматы доступны для использования и где я могу найти эту информацию для себя? OrcSerDe вариант? Я все еще учусь об этом. Спасибо.

Gaurang Shah · Answer 1 · 04 сентября 2018

Поддерживаются следующие форматы файлов.

текст
* 1006 CSV *
1008 * LDAP *
1010 * JSON *
паркет
орк

Ссылка: https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/DataFrameWriter.scala

matthiasdenu · Answer 2 · 04 сентября 2018

Таким образом, я смог записать фрейм данных pyspark в сжатую таблицу Hive, используя pyspark.sql.DataFrameWriter . Для этого мне нужно было сделать что-то вроде следующего:

my_df.write.orc('my_file_path')

Это добилось цели.

https://spark.apache.org/docs/1.6.0/api/python/pyspark.sql.html#pyspark.sql.DataFrame.write

Я использую pyspark 1.6.0 кстати

Какие форматы файлов я могу сохранить как фрейм данных pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какие форматы файлов я могу сохранить как фрейм данных pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы