Я пытался использовать экземпляры google compute engine для настройки модели регрессора случайных лесов sklearn с большим набором данных. Я открыл экземпляр 24-vCPUs / 90 ГБ (не преобразуемый) и использовал n_jobs в коде для использования нескольких виртуальных ЦП.
Я пытался использовать ноутбук Jupyter, а также Datalab (лаборатория Google для ноутбуков) через s sh, чтобы запустите его, но большую часть времени экземпляр просто перестал работать после примерно 15 минут тяжелой работы (я пытался использовать потоки 24/24 и 18/24, которые не сработали). Интерфейс терминала / оболочки и лаборатории / ноутбука больше не реагирует, но кажется, что экземпляр продолжает работать со страницы экземпляра. Не удалось, когда я попытался подключиться к экземпляру. Только когда я остановлю и перезапущу экземпляр, я могу подключиться к нему.
Я надеюсь, что кто-то со схожим опытом сможет поделиться со мной, как мне поступить с ним? Есть ли где-нибудь настройка, которая препятствует работе тяжелых процессоров?
Обновление:
rf = RandomForestRegressor()
rf_random = RandomizedSearchCV(estimator = rf, param_distributions = random_grid,
n_iter = 100, cv = 3, random_state=0,
n_jobs = -1, verbose = 11)
rf_random.fit(X_s, y_s)
Я нашел похожие вопросы в поиске "sklearn parallel Jupyter freezing". Похоже, это обычная проблема с использованием n_jobs для параллельной работы со sklearn.