PySpark - записывает фрейм данных в таблицу Hive - PullRequest
0 голосов
/ 05 августа 2020

У меня пустая таблица Hive. У меня есть 18 заданий, которые я выполняю, и у каждого из них может быть фрейм данных, который мне нужно будет добавить в таблицу Hive с файлом parquet.

У меня есть что-то вроде этого:

df2.write.parquet(SOME_HDFS_DIR/my_table_dir)

Но это не совсем так. Нужно ли мне добавлять имя файла .parquet и добавлять его каждый раз? Я видел синтаксис Scala, но не Python.

1 Ответ

0 голосов
/ 06 августа 2020

df.write.parquet перезапишет паркетные файлы местоположения, но с опцией

df.write.mode('append').parquet('path')

тогда будет создан новый паркетный файл по пути, и вы сможете читать данные из таблицы. .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...