Question

Я обрабатываю около 10 дней данных, которые делю на основе даты, и использую опцию df write maxRecordsPerFile.

100% ресурса кластера используется, пока данные читаются, но как толькопри запуске суфлевой записи удаляется 99% ядер и используется только одно ядро с 1-2% памяти.

Как решить эту проблему, чтобы мой кластер был полностью использован?

** В случае, если я не ошибаюсь, если я делаю PartitionBy на дату, то должны быть приведены только данные за эту конкретную датув одно ядро.т.е. данные за 10 дней должны работать на 10 ядрах при использовании PartitionBy, однако при использовании maxRecordsPerFile все данные за 10 дней переносятся только в одно ядро.

Проблема производительности при записи DF в файл с помощью maxRecordsPerFile

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Проблема производительности при записи DF в файл с помощью maxRecordsPerFile

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов