Я обрабатываю около 10 дней данных, которые делю на основе даты, и использую опцию df write maxRecordsPerFile
.
100% ресурса кластера используется, пока данные читаются, но как толькопри запуске суфлевой записи удаляется 99% ядер и используется только одно ядро с 1-2% памяти.
Как решить эту проблему, чтобы мой кластер был полностью использован?
** В случае, если я не ошибаюсь, если я делаю PartitionBy на дату, то должны быть приведены только данные за эту конкретную датув одно ядро.т.е. данные за 10 дней должны работать на 10 ядрах при использовании PartitionBy, однако при использовании maxRecordsPerFile
все данные за 10 дней переносятся только в одно ядро.