Как объединить разделы в pyspark? - PullRequest
2 голосов
/ 18 февраля 2020

Предполагая, что у меня есть секционированная таблица в моих hdf-файлах, она постоянно получает новую информацию. По умолчанию новая информация будет разбита по дням, а все остальные файлы - по месяцам. Как я могу объединить разделы, чтобы в этом примере я мог объединить разделы всех дней, которые за последний месяц были разделами на месяц? Есть ли способ перераспределить только некоторые разделы таблицы? (Если бы я мог перераспределить только часть своего раздела, я бы перераспределил их на один раздел, поэтому я получил эффект объединения)

Возможно ли объединение разделов или я должен попытаться прочитать все эти разделы? файлы, удалить их и записать их в один из небольших разделов, а затем удалить все пустые разделы? Если это так, могу ли я убедиться, что файлы будут записаны как один (возможно, мне следует объединить файлы перед их записью)

Я хотел бы знать, каков наилучший способ объединения только некоторого раздела стол.

...