ускорить конкат-функцию pandas для 40 кадров данных, каждый из которых содержит 1 миллион строк и 100 столбцов - PullRequest
0 голосов
/ 25 октября 2019

Я хотел бы ускорить функцию панд concat() для больших фреймов данных.

У меня 40 фреймов данных, и каждый фрейм данных имеет, скажем, 1 миллион строк и 100 столбцов (столбцы могут быть любыми:bool, string, integer и т. д.). Мы попытались запустить его на кластерах, используя dask и т. Д. Результат еще впереди!

Любая идея будет высоко оценена.

1 Ответ

0 голосов
/ 25 октября 2019

Если я правильно понимаю, вам нужно объединить 40 кадров данных формы (1M, 100) в один df, что приведет к (40M, 100) форме.

Если это так, вы можете сделатькак то так (написано на Numpy, но идея применима):

out = np.zeros((4000000, 10))
row_size = 1000000

for i in range(40):
   out[i * row_size : i * row_size + row_size, :] = datai #ith dataframe
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...