Question

У меня пустая таблица Hive. У меня есть 18 заданий, которые я выполняю, и у каждого из них может быть фрейм данных, который мне нужно будет добавить в таблицу Hive с файлом parquet.

У меня есть что-то вроде этого:

df2.write.parquet(SOME_HDFS_DIR/my_table_dir)

Но это не совсем так. Нужно ли мне добавлять имя файла .parquet и добавлять его каждый раз? Я видел синтаксис Scala, но не Python.

Lamanus · Answer 1 · 06 августа 2020

df.write.parquet перезапишет паркетные файлы местоположения, но с опцией

df.write.mode('append').parquet('path')

тогда будет создан новый паркетный файл по пути, и вы сможете читать данные из таблицы. .

PySpark - записывает фрейм данных в таблицу Hive

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

PySpark - записывает фрейм данных в таблицу Hive

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы