Записная книжка Jupyter занимает целую вечность (например ... несколько дней), чтобы запустить ячейку с двумя линиями. Я обрабатываю метаданные netCDF4, используя xarray и pandas. Проблема с моим кодом, объемом данных (80000+) или моим ноутбуком?
Я уже исключил переменные в наборе данных, которые мне не нужны, но это не ускорило процесс обновления всех библиотек, которые использует мой код, также не сработало. Я запускаю все это на ноутбуке Jupyter через Conda на MacBook 12 дюймов с MacOS Mojave.
Это код, который запускается днями. Все остальное в моей записной книжке работает своевременно:
#resample to make time = 1 hr increments
dshr=ds.resample(time='1h', skipna=True, label='left').mean()
dshr
Я также пытался сделать это с помощью groupby:
df = df.set_index('datetime').groupby(pd.Grouper(freq='60S')).first()
Но, похоже, это займет столько же времени.
Записная книжка работает часами подряд с [*] рядом с ячейкой. Я знаю, что это работает, потому что, когда я делаю выборку только из одной переменной, она запускается примерно через 45 минут, и я получаю ожидаемые результаты.