AWS EMR 6.0 Проблемы с запуском. С пользовательским AMI - PullRequest
0 голосов
/ 19 апреля 2020

Я пытаюсь запустить AWS EMR 6.0 кластер, используя пользовательский AMI. AMI - Amazon Linux 2 с R 3.6, установленным из epel и несколькими другими пакетами в R.

Я сделал следующее при установке R на EC2 перед созданием образа,

sudo yum install -y https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
sudo yum-config-manager --enable epel

, затем Я установил R 3.6, так как он мне нужен для определенных c целей и не может работать с версией R 3.4.1 по умолчанию, предоставленной EMR.

sudo yum install R

Я устанавливаю несколько пакетов, таких как pdftools и зависимостей для него, таких как poppler-devel и libjpeg-devel. Затем я создаю AMI из экземпляра EC2 и использую его при загрузке EMR из расширенных настроек.

Проблемы:

Главный узел входит в начальный запуск, но рабочие узлы застряли при подготовке, и, наконец, кластер завершается с ошибкой bootstrap. stderr.gz для рабочего узла показывает это

> Terminated with errorsOn 2 slave instances (including
> i-0c7a76ad5bc20586f and i-095dd2f66ead73671), application provisioning
> timed out

Я пошел дальше и посмотрел журналы рабочих узлов, но ничего не смог найти. Журналы, рабочие узлы

+ sudo /usr/share/aws/emr/node-provisioner/bin/provision-node --install --provision -d0/8809ed7b-924d-4c4c-b088-ba91c3f41e6f
+ NODE_PROVISIONER=NodeProvisioner
+ INSTALL=0
+ PROVISION=0
+ LOG_SUBDIRECTORY=/
+ args='--install --provision -d0/8809ed7b-924d-4c4c-b088-ba91c3f41e6f'
++ getopt -n /usr/share/aws/emr/node-provisioner/bin/provision-node -o d: -l install -l component-names: -l provision -- --install --provision -d0/8809ed7b-924d-4c4c-b088-ba91c3f41e6f
+ OPTS=' --install --provision -d '\''0/8809ed7b-924d-4c4c-b088-ba91c3f41e6f'\'' --'
+ '[' 0 '!=' 0 ']'
+ eval set -- ' --install --provision -d '\''0/8809ed7b-924d-4c4c-b088-ba91c3f41e6f'\'' --'
++ set -- --install --provision -d 0/8809ed7b-924d-4c4c-b088-ba91c3f41e6f --
+ true
+ case "$1" in
+ INSTALL=1
+ shift
+ true
+ case "$1" in
+ PROVISION=1
+ shift
+ true
+ case "$1" in
+ LOG_SUBDIRECTORY=/0/8809ed7b-924d-4c4c-b088-ba91c3f41e6f/
+ shift 2
+ true
+ case "$1" in
+ shift
+ break
+ this=/usr/share/aws/emr/node-provisioner/bin/provision-node
+ '[' -h /usr/share/aws/emr/node-provisioner/bin/provision-node ']'
++ dirname /usr/share/aws/emr/node-provisioner/bin/provision-node
+ bin=/usr/share/aws/emr/node-provisioner/bin
++ basename /usr/share/aws/emr/node-provisioner/bin/provision-node
+ script=provision-node
++ cd /usr/share/aws/emr/node-provisioner/bin
++ pwd
+ bin=/usr/share/aws/emr/node-provisioner/bin
+ this=/usr/share/aws/emr/node-provisioner/bin/provision-node
+ '[' -z '' ']'
++ dirname /usr/share/aws/emr/node-provisioner/bin
+ export EMR_NODE_PROVISIONER_HOME=/usr/share/aws/emr/node-provisioner
+ EMR_NODE_PROVISIONER_HOME=/usr/share/aws/emr/node-provisioner
+ CLASSPATH='/usr/share/aws/emr/node-provisioner/lib/*'
+ CLASS=com.amazonaws.emr.node.provisioner.Program
+ APPS_PHASE_LOG_ROOT=/var/log/provision-node/apps-phase/0/8809ed7b-924d-4c4c-b088-ba91c3f41e6f/
+ mkdir -p /var/log/provision-node/apps-phase/0/8809ed7b-924d-4c4c-b088-ba91c3f41e6f/
+ [[ 1 == 1 ]]
+ [[ 1 != 1 ]]
+ STDOUT_LOG=/var/log/provision-node/apps-phase/0/8809ed7b-924d-4c4c-b088-ba91c3f41e6f//stdout
+ STDERR_LOG=/var/log/provision-node/apps-phase/0/8809ed7b-924d-4c4c-b088-ba91c3f41e6f//stderr
+ [[ 1 == 1 ]]
+ echo 5060
+ nohup -- java -classpath '/usr/share/aws/emr/node-provisioner/lib/*' com.amazonaws.emr.node.provisioner.Program --no-repo-provision --install --provision -d0/8809ed7b-924d-4c4c-b088-ba91c3f41e6f

controller.gz показывает это

2020-04-18T13:55:09.588Z INFO Fetching file '/var/lib/aws/emr/provision-node'
2020-04-18T13:55:09.599Z INFO startExec '/var/lib/aws/emr/provision-node --install --provision -d0/8809ed7b-924d-4c4c-b088-ba91c3f41e6f'
2020-04-18T13:55:09.599Z INFO Environment:
  PATH=/usr/lib64/qt-3.3/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin
  HISTCONTROL=ignoredups
  LESSOPEN=||/usr/bin/lesspipe.sh %s
  QTINC=/usr/lib64/qt-3.3/include
  HISTSIZE=1000
  JAVA_HOME=/etc/alternatives/jre
  AWS_DEFAULT_REGION=ap-south-1
  USER=hadoop
  LANG=en_US.UTF-8
  MAIL=/var/spool/mail/hadoop
  HOSTNAME=ip-172-31-29-87.ap-south-1.compute.internal
  QTDIR=/usr/lib64/qt-3.3
  LOGNAME=hadoop
  PWD=/
  QTLIB=/usr/lib64/qt-3.3/lib
  SHLVL=2
  HOME=/home/hadoop
  _=/etc/alternatives/jre/bin/java
2020-04-18T13:55:09.601Z INFO redirectOutput to /mnt/var/log/provision-node/8809ed7b-924d-4c4c-b088-ba91c3f41e6f/stdout
2020-04-18T13:55:09.602Z INFO redirectError to /mnt/var/log/provision-node/8809ed7b-924d-4c4c-b088-ba91c3f41e6f/stderr
2020-04-18T13:55:09.602Z INFO Working dir /mnt/var/lib/provision-node/8809ed7b-924d-4c4c-b088-ba91c3f41e6f
2020-04-18T13:55:09.637Z INFO ProcessRunner started child process : /var/lib/aws/emr/provision-node --install --pro...
2020-04-18T13:55:09.637Z INFO Synchronously wait child process to complete : /var/lib/aws/emr/provision-node --install --pro...
2020-04-18T13:55:11.637Z INFO waitProcessCompletion ended with exit code 0 : /var/lib/aws/emr/provision-node --install --pro...
2020-04-18T13:55:11.637Z INFO total process run time: 2 seconds
2020-04-18T13:55:11.637Z INFO Execution succeeded

masterlog.gz показывает это

2020-04-18 13:55:04,353 INFO i-0f6065ab968c63873: new instance started
2020-04-18 13:55:04,357 ERROR i-0f6065ab968c63873: failed to start. bootstrap action 1 failed with non-zero exit code.
2020-04-18 13:55:08,916 INFO i-0e9c6488a8b221272: new instance started
2020-04-18 13:55:09,606 INFO i-080086f76fb8de930: new instance started
2020-04-18 13:55:10,935 INFO i-0e9c6488a8b221272: all bootstrap actions complete and instance ready
2020-04-18 13:55:11,649 INFO i-080086f76fb8de930: all bootstrap actions complete and instance ready

Основная проблема заключается в том, что рабочие узлы не переходят в режим bootstrap, и кластер завершается с ошибками, показанными выше. Помимо предоставления пользовательского AMI, я не даю никаких bootstrap действий или шагов при настройке кластера EMR.

Пожалуйста, любая помощь будет принята с благодарностью.

...