Google CloudML: работа завершается сбоем после завершения программы обучения, хотя обучение еще не завершено - PullRequest
0 голосов
/ 12 июня 2019

Я пытаюсь обучить модель с помощью Google Cloud Platform (GCP).

Я выбрал масштабный уровень standard-1 (использование базового уровня дает исключения для памяти, которые, я думаю, связаны с размером (2,6 ГБ) данных), но моя работа не выполняется после журнала " Закончено удаление обучающая программа", хотя она все еще загружает данные в виртуальную машину из облачного хранилища.

Он не предоставляет никаких трассировок относительно возможной ошибки.

У меня есть данные, хранящиеся в облачном хранилище, и чтобы сделать их доступными, я использую os.system('gsutil -m cp -r location_of_data_in_cloud_storage os.getcwd()'), чтобы сохранить данные в назначенной виртуальной машине, чтобы программа могла напрямую к ним обращаться. Эти данные затем загружаются в метод model.fit_generator () через генератор.

Job-Log1

Job-Log2

Как видно, данные объемом 2,6 ГБ были загружены не полностью, но задание не было выполнено до этого!

1 Ответ

0 голосов
/ 10 июля 2019

Любой другой, кто сталкивается с этим вопросом в будущем (возможно, я;)), проблема выше возникала, потому что машина не могла обрабатывать вычисления, и поэтому мне пришлось масштабировать машину, используя standard_p100 scale-уровень масштабирования basic в GCP, который решил проблему!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...