Я использую Python 3.5.Я манипулирую огромным фреймом данных (500 миллионов строк), который я сгруппировал, используя
gb=df.groupby(by=a_field)
Результаты gb - это несколько миллионов элементов groupby.Поскольку скорость работы имеет решающее значение , мне нужно разбить этот большой групповой результат на несколько меньших (тот же формат).Затем я буду использовать функцию
threading.Thread(target=function,args=(smaller_gb))
для параллельной обработки каждого меньшего куска.Надеюсь, это ускорит мои вычисления.
Я не нашел хорошего ответа о том, как разбить большой групповой результат на несколько меньших групповых элементов и сохранить оптимальную производительность.
Я ценю любой намек.
Большое спасибо, Джерард