Решено: на устройстве в Google Cloudml BASIC TIER не осталось места. Каков размер диска каждого уровня в cloudml? - PullRequest
0 голосов
/ 01 апреля 2019

Во время обучения моей модели для данных объемом более 20 ГБ в BASIC Tier в Cloud ML мои задания не выполняются, поскольку на машинах Cloudml нет места на диске, и я не могу найти какие-либо подробности в документации gcloud ml [ https://cloud.google.com/ml-engine/docs/tensorflow/machine-types].

Нужна помощь в определении УРОВНЯ для моих учебных заданий, а также использование очень мало в графиках детализации работы.

Expand all | Collapse all {
insertId:  "1klpt2"  
jsonPayload: {
created:  1554434546.3576794   
levelname:  "ERROR"   
lineno:  51   
message:  "Failed to train : [Errno 28] No space left on device"   
pathname:  "/root/.local/lib/python3.5/site- 
packages/loggerwrapper.py"   
}
labels: {
compute.googleapis.com/resource_id:  ""   
compute.googleapis.com/resource_name:  "cmle-training- 
10361805218452604847"   
compute.googleapis.com/zone:  ""   
ml.googleapis.com/job_id/log_area:  "root"   
ml.googleapis.com/trial_id:  ""   
}
logName:  "projects/backend/logs/master-replica-0"  
receiveTimestamp:  "2019-03-31T12:32:30.07683Z"  
resource: {
labels: {
job_id:  ""    
project_id:  "backend"    
task_name:  "master-replica-0"    
}
type:  "ml_job"   
}
severity:  "ERROR"  
timestamp:  "2019-03-31T12:32:26.357679367Z"   
}

1 Ответ

0 голосов
/ 08 июня 2019

Решено: Эта ошибка возникла не из-за дискового пространства, а из-за tmfs общей памяти.Пригонка sklearn потребляла всю общую память во время тренировки.Решение: установка JOBLIB_TEMP_FOLDER переменной среды для / tmp решает проблему.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...