Групповые панды с numpy array_split занимают много времени - PullRequest
0 голосов
/ 21 ноября 2018

Я работаю над тем, чтобы получить множество строк вокруг 2.000.000 строк, где я группирую их по одному столбцу.

Он работает так долго, но когда я в Python3попробуйте сделать Numpy array_split его загрузкой навсегда, это займет так много времени, что я не могу ждать его, когда я тестирую.

Нормально, если я не использую groupby в Pandas, это займет немного временисекунд, но теперь, когда я использую groupby ('columen'), я не могу легко разделить свой энморер данных.

def parallelize(data, func):
    data_split = np.array_split(data, partitions)

    pool = Pool(cores)
    data = pd.concat(pool.map(func, data_split))
    pool.close()
    pool.join()

    return data

Вы можете попытаться сделать многопоточность, чтобы обрабатывать мои функции еще быстрее.

когда я раскомментирую свою функцию groupby в Pandas, она работает гладко, так что ее моя groupby и затем array_split делают troblese.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...