Код обработки метаданных работает вечно в ноутбуке Jupyter - PullRequest
0 голосов
/ 02 июля 2019

Записная книжка Jupyter занимает целую вечность (например ... несколько дней), чтобы запустить ячейку с двумя линиями. Я обрабатываю метаданные netCDF4, используя xarray и pandas. Проблема с моим кодом, объемом данных (80000+) или моим ноутбуком?

Я уже исключил переменные в наборе данных, которые мне не нужны, но это не ускорило процесс обновления всех библиотек, которые использует мой код, также не сработало. Я запускаю все это на ноутбуке Jupyter через Conda на MacBook 12 дюймов с MacOS Mojave.

Это код, который запускается днями. Все остальное в моей записной книжке работает своевременно:

#resample to make time = 1 hr increments  
dshr=ds.resample(time='1h', skipna=True, label='left').mean()
dshr

Я также пытался сделать это с помощью groupby:

df = df.set_index('datetime').groupby(pd.Grouper(freq='60S')).first()

Но, похоже, это займет столько же времени.

Записная книжка работает часами подряд с [*] рядом с ячейкой. Я знаю, что это работает, потому что, когда я делаю выборку только из одной переменной, она запускается примерно через 45 минут, и я получаю ожидаемые результаты.

...