Объединение разделов dask в один файл при записи в s3 Bucket в AWS - PullRequest
0 голосов
/ 06 ноября 2019

Мне удалось записать таблицу базы данных оракула в корзину s3 в AWS в формате паркета с использованием Dask. Тем не менее, я надеялся написать один файл, как в Pandas. Я знаю, что Dask разделяет данные, которые создают отдельные файлы и папку. Я пробовал установить append в true и количество разделов в false, но это не имеет значения. Есть ли способ объединения / добавления разделов при записи в ведро s3 для создания одного файла паркета без папки?

Спасибо

1 Ответ

0 голосов
/ 06 ноября 2019

Нет, эта функциональность в настоящее время не существует в Dask. Вероятно, не так уж сложно использовать pyarrow или fastparquet для выполнения этой работы, хотя, взяв разделы и перетащив их в любую новую схему разбиения на фрагменты, которая вам нравится.

Я не уверен, но возможно использовать ееФункциональность копирования s3 позволяет выборочно вырезать куски байтов из файлов данных и вставить их в основной файл, который вы хотите создать ... Это было бы гораздо сложнее.

...