AWS -cfn-cluster: задания висели в статусе qw, qsub не всегда работает (нестабильно?) - PullRequest
0 голосов
/ 30 марта 2020

Я использую c4.4xlarge и c4.8xlarge для cfn-cluster. Иногда я использую свои собственные шаблоны, иногда я использую AWS по умолчанию для VP C US-West (Calif), например, c4.4xlarge.

После того, как облако сформировано, я никогда не смогу запустить простую оболочку hello world с использованием qsub, и даже эта небольшая работа находится в состоянии qw.

Вчера было время, когда я запускал qsub в уже не существующем стеке, и тысячи моих заданий появлялись в qstat, так что это кажется нестабильным.

Последнее, когда я вызываю {code} qhost {code}, ничего не отображается - все пустые значения с "-"

Есть предложения?

(fyi- настройки шаблона для очереди SCE перечислены ниже):

 "Mappings": {
    "MyConfig": {
      "MasterInstanceType": {
        "Default": "m4.large"
      },
      "ComputeInstanceType": {
        "Default": "c4.4xlarge"
      },
      "InitialQueueSize": {
        "Default": "1"
      },
      "MaxQueueSize": {
        "Default": "10"
      },
      "ComputeSubnetId": {
        "Default": "NONE"
      },
      "ComputeSubnetCidr": {
        "Default": "NONE"
      },
      "ScalingThreshold": {
        "Default": "4"
      },
      "ScalingEvaluationPeriods": {
        "Default": "2"
      },
      "ScalingPeriod": {
        "Default": "60"
      },
      "ClusterType": {
        "Default": "spot"
      },
      "ProxyServer": {
        "Default": "NONE"
      },
      "VolumeSize": {
        "Default": "20"
      },
      "VolumeType": {
        "Default": "gp2"
      },
      "CustomAMI": {
        "Default": "NONE"
      },
      "SSHFrom": {
        "Default": "0.0.0.0/0"
      },
      "MaintainInitialSize": {
        "Default": "false"
      },
      "UsePublicIps": {
        "Default": "true"
      },
      "VolumeIOPS": {
        "Default": "100"
      },
      "PreInstallScript": {
        "Default": "NONE"
      },
      "PostInstallScript": {
        "Default": "NONE"
      },
      "ComputeWaitConditionCount": {
        "Default": "0"
      },
      "S3ReadResource": {
        "Default": "NONE"
      },
      "S3ReadWriteResource": {
        "Default": "NONE"
      },
      "Placement": {
        "Default": "cluster"
      },
      "PlacementGroup": {
        "Default": "NONE"
      },
      "EncryptedEphemeral": {
        "Default": "false"
      },
      "PreInstallArgs": {
        "Default": "NONE"
      },
      "PostInstallArgs": {
        "Default": "NONE"
      },
      "EBSEncryption": {
        "Default": "false"
      },
      "EphemeralDir": {
        "Default": "/scratch"
      },
      "BaseOS": {
        "Default": "centos6"
      },
      "ScalingThreshold2": {
        "Default": "10000"
      },
      "ScalingCooldown": {
        "Default": "120"
      },
      "ScalingAdjustment": {
        "Default": "2"
      },
      "ScalingAdjustment2": {
        "Default": "20"
      },
      "Scheduler": {
        "Default": "sge"
      },
      "SharedDir": {
        "Default": "/shared"
      },
      "CLITemplate": {
        "Default": "Default"
      },
      "AdditionalSG": {
        "Default": "NONE"
      },
      "CWLRegion": {
        "Default": "NONE"
      },
      "CWLLogGroup": {
        "Default": "NONE"
      },
      "Tenancy": {
        "Default": "default"
      },
      "EBSKMSKeyId": {
        "Default": "NONE"
      },
      "EphemeralKMSKeyId": {
        "Default": "NONE"
      },
      "ClusterReadyScript": {
        "Default": "NONE"
      }
    },
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...