Question

У меня есть dask dataframe с 2700 разделами. Каждый раздел составляет около 1 млн строк. Я хочу найти все уникальные значения в одном из столбцов с функцией unique(). Повысит ли это скорость, если я сделаю df.repartition для этого набора данных, чтобы уменьшить количество разделов и увеличить размер раздела?

MRocklin · Answer 1 · 03 ноября 2019

Ответ «Возможно».

Производительность зависит от многих вещей. Я рекомендую попробовать и посмотреть, что работает. Вы также можете прочитать нашу страницу документации Understanding Performance , на которой есть несколько советов о том, как понять и измерить производительность.

Увеличивает ли размер раздела dask скорость?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Увеличивает ли размер раздела dask скорость?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы