Как разбить большие результаты group_by на несколько меньших кусков group_by - PullRequest
0 голосов
/ 21 мая 2019

Я использую Python 3.5.Я манипулирую огромным фреймом данных (500 миллионов строк), который я сгруппировал, используя

gb=df.groupby(by=a_field)

Результаты gb - это несколько миллионов элементов groupby.Поскольку скорость работы имеет решающее значение , мне нужно разбить этот большой групповой результат на несколько меньших (тот же формат).Затем я буду использовать функцию

threading.Thread(target=function,args=(smaller_gb)) 

для параллельной обработки каждого меньшего куска.Надеюсь, это ускорит мои вычисления.

Я не нашел хорошего ответа о том, как разбить большой групповой результат на несколько меньших групповых элементов и сохранить оптимальную производительность.

Я ценю любой намек.

Большое спасибо, Джерард

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...