Question

позвольте мне сначала начать с моего сценария: у меня есть большой массив данных, хранящийся в HDFS.Я загружаю фрейм данных в сеансе spark и создаю новый столбец, не меняя существующее содержимое.После этого я хочу сохранить фрейм данных в исходном каталоге в HDFS.

Теперь я знаю, что практически могу работать с операцией записи spark в стиле df.parquet.write("my_df_path", mode="overwrite").Поскольку данные огромны, я исследую, существует ли так называемый метод добавления или столбцов в виде столбцов, который не записывает полный фрейм данных только в отличие от хранимых данных.Конечная цель - сэкономить память и вычислительные ресурсы для системы HDFS.

Pyspark & HDFS: добавление нового столбца данных в существующие файлы паркета в формате hdf.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Pyspark & ​​HDFS: добавление нового столбца данных в существующие файлы паркета в формате hdf.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы

Pyspark & HDFS: добавление нового столбца данных в существующие файлы паркета в формате hdf.