Pyspark & ​​HDFS: добавление нового столбца данных в существующие файлы паркета в формате hdf. - PullRequest
0 голосов
/ 24 октября 2018

позвольте мне сначала начать с моего сценария: у меня есть большой массив данных, хранящийся в HDFS.Я загружаю фрейм данных в сеансе spark и создаю новый столбец, не меняя существующее содержимое.После этого я хочу сохранить фрейм данных в исходном каталоге в HDFS.

Теперь я знаю, что практически могу работать с операцией записи spark в стиле df.parquet.write("my_df_path", mode="overwrite").Поскольку данные огромны, я исследую, существует ли так называемый метод добавления или столбцов в виде столбцов, который не записывает полный фрейм данных только в отличие от хранимых данных.Конечная цель - сэкономить память и вычислительные ресурсы для системы HDFS.

...