Какие форматы файлов я могу сохранить как фрейм данных pyspark? - PullRequest
0 голосов
/ 04 сентября 2018

Я хотел бы сохранить огромный фрейм данных pyspark в виде таблицы Hive. Как я могу сделать это эффективно? Я хочу использовать saveAsTable (имя, формат = нет, режим = нет, partitionBy = нет, ** параметры) из pyspark.sql.DataFrameWriter.saveAsTable .

# Let's say I have my dataframe, my_df
# Am I able to do the following?
my_df.saveAsTable('my_table')

У меня вопрос, какие форматы доступны для использования и где я могу найти эту информацию для себя? OrcSerDe вариант? Я все еще учусь об этом. Спасибо.

Ответы [ 2 ]

0 голосов
/ 04 сентября 2018

Поддерживаются следующие форматы файлов.

  • текст
  • * 1006 CSV *
  • 1008 * LDAP *
  • 1010 * JSON *
  • паркет
  • орк

Ссылка: https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/DataFrameWriter.scala

0 голосов
/ 04 сентября 2018

Таким образом, я смог записать фрейм данных pyspark в сжатую таблицу Hive, используя pyspark.sql.DataFrameWriter . Для этого мне нужно было сделать что-то вроде следующего:

my_df.write.orc('my_file_path')

Это добилось цели.

https://spark.apache.org/docs/1.6.0/api/python/pyspark.sql.html#pyspark.sql.DataFrame.write

Я использую pyspark 1.6.0 кстати

...