Я использую Dask для обработки больших фреймов данных и таких вещей, как соединения / фильтры. Конечный результат - это датафрейм, который, как я знаю, имеет 8 строк. Однако, если мой кадр данных dask равен f
, где я проверяю f
, я получаю npartitions=81
и Dask Name: assign, 10633 tasks
. Это почему? Запись в файл .h5 заняла почти 5 часов, и я обнаружил, что в результате всего 8 строк. Есть ли способ, которым я могу ускорить это?
Количество разделов было 81, что казалось слишком большим. Я понизил его до 5, и это все еще заняло 4 часа.