Question

Я использую Python 3.5.Я манипулирую огромным фреймом данных (500 миллионов строк), который я сгруппировал, используя

gb=df.groupby(by=a_field)

Результаты gb - это несколько миллионов элементов groupby.Поскольку скорость работы имеет решающее значение , мне нужно разбить этот большой групповой результат на несколько меньших (тот же формат).Затем я буду использовать функцию

threading.Thread(target=function,args=(smaller_gb))

для параллельной обработки каждого меньшего куска.Надеюсь, это ускорит мои вычисления.

Я не нашел хорошего ответа о том, как разбить большой групповой результат на несколько меньших групповых элементов и сохранить оптимальную производительность.

Я ценю любой намек.

Большое спасибо, Джерард

Как разбить большие результаты group_by на несколько меньших кусков group_by

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как разбить большие результаты group_by на несколько меньших кусков group_by

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов