Я работаю над тем, чтобы получить множество строк вокруг 2.000.000 строк, где я группирую их по одному столбцу.
Он работает так долго, но когда я в Python3попробуйте сделать Numpy array_split его загрузкой навсегда, это займет так много времени, что я не могу ждать его, когда я тестирую.
Нормально, если я не использую groupby в Pandas, это займет немного временисекунд, но теперь, когда я использую groupby ('columen'), я не могу легко разделить свой энморер данных.
def parallelize(data, func):
data_split = np.array_split(data, partitions)
pool = Pool(cores)
data = pd.concat(pool.map(func, data_split))
pool.close()
pool.join()
return data
Вы можете попытаться сделать многопоточность, чтобы обрабатывать мои функции еще быстрее.
когда я раскомментирую свою функцию groupby в Pandas, она работает гладко, так что ее моя groupby и затем array_split делают troblese.