Рабочие не используются из-за ошибки автоматического масштабирования - PullRequest
0 голосов
/ 23 мая 2019

Эта проблема относится к предыдущему вопросу. Состояние рабочего узла в кластере Ray EC2: ошибка обновления ;при использовании Ray для кластера EC2.Кажется, что кластер использует только головной узел, несмотря на то, что в конфигурации указано 2 рабочих узла.Ниже приведен вывод результатов мониторинга, который содержит повторяющуюся ошибку, которую я не понимаю.(Я помещаю это в новый вопрос, потому что текста много, но это может не относиться к проблеме.)

Новая трассировка ошибки: -

$ ray exec ray_conf.yaml  'tail -n 100 -f /tmp/ray/session_*/logs/monitor*'
2019-05-26 20:33:14,588 INFO updater.py:95 -- NodeUpdater: Waiting for IP of i-04a42aa146ce9b129...
2019-05-26 20:33:14,588 INFO log_timer.py:21 -- NodeUpdater: i-04a42aa146ce9b129: Got IP [LogTimer=414ms]
2019-05-26 20:33:14,594 INFO updater.py:272 -- NodeUpdater: Running tail -n 100 -f /tmp/ray/session_*/logs/monitor* on 100.24.20.34...
==> /tmp/ray/session_2019-05-27_00-31-35_902117_10123/logs/monitor.err <==
2019-05-27 00:31:52,106 INFO autoscaler.py:647 -- LoadMetrics: MostDelayedHeartbeats={'172.31.58.46': 0.33398985862731934}, NodeIdleSeconds=Min=14 Mean=14 Max=14, NumNodesConnected=1, NumNodesUsed=0.0, ResourceUsage=0.0/36.0 b'CPU', TimeSinceLastHeartbeat=Min=0 Mean=0 Max=0
2019-05-27 00:31:57,062 INFO autoscaler.py:646 -- StandardAutoscaler: 2/2 target nodes (0 pending) (2 updating) (bringup=True)
2019-05-27 00:31:57,063 INFO autoscaler.py:647 -- LoadMetrics: MostDelayedHeartbeats={'172.31.58.46': 0.270449161529541}, NodeIdleSeconds=Min=19 Mean=19 Max=19, NumNodesConnected=1, NumNodesUsed=0.0, ResourceUsage=0.0/36.0 b'CPU', TimeSinceLastHeartbeat=Min=0 Mean=0 Max=0
2019-05-27 00:31:57,331 INFO updater.py:272 -- NodeUpdater: Running uptime on 172.31.57.23...
2019-05-27 00:32:02,076 INFO updater.py:272 -- NodeUpdater: Running uptime on 172.31.55.204...
2019-05-27 00:32:02,110 INFO autoscaler.py:646 -- StandardAutoscaler: 2/2 target nodes (0 pending) (2 updating) (bringup=True)
2019-05-27 00:32:02,110 INFO autoscaler.py:647 -- LoadMetrics: MostDelayedHeartbeats={'172.31.58.46': 0.2268660068511963}, NodeIdleSeconds=Min=24 Mean=24 Max=24, NumNodesConnected=1, NumNodesUsed=0.0, ResourceUsage=0.0/36.0 b'CPU', TimeSinceLastHeartbeat=Min=0 Mean=0 Max=0
2019-05-27 00:32:02,544 INFO log_timer.py:21 -- NodeUpdater: i-09402f41cdaf55b70: Got SSH [LogTimer=20562ms]
2019-05-27 00:32:02,547 INFO log_timer.py:21 -- NodeUpdater: i-09402f41cdaf55b70: Initialization commands completed [LogTimer=4ms]
2019-05-27 00:32:02,548 INFO updater.py:272 -- NodeUpdater: Running export RAY_HEAD_IP=172.31.58.46; sudo pkill -9 apt-get || true on 172.31.55.204...
2019-05-27 00:32:02,641 INFO log_timer.py:21 -- AWSNodeProvider: Set tag ray-node-status=setting-up on ['i-09402f41cdaf55b70'] [LogTimer=97ms]
2019-05-27 00:32:02,661 INFO updater.py:272 -- NodeUpdater: Running export RAY_HEAD_IP=172.31.58.46; sudo pkill -9 dpkg || true on 172.31.55.204...
2019-05-27 00:32:02,750 INFO updater.py:272 -- NodeUpdater: Running export RAY_HEAD_IP=172.31.58.46; sudo dpkg --configure -a on 172.31.55.204...
2019-05-27 00:32:02,851 INFO updater.py:272 -- NodeUpdater: Running export RAY_HEAD_IP=172.31.58.46; sudo apt-get update on 172.31.55.204...
2019-05-27 00:32:07,176 INFO autoscaler.py:646 -- StandardAutoscaler: 2/2 target nodes (0 pending) (2 updating) (bringup=True)
2019-05-27 00:32:07,177 INFO autoscaler.py:647 -- LoadMetrics: MostDelayedHeartbeats={'172.31.58.46': 0.2408006191253662}, NodeIdleSeconds=Min=29 Mean=29 Max=29, NumNodesConnected=1, NumNodesUsed=0.0, ResourceUsage=0.0/36.0 b'CPU', TimeSinceLastHeartbeat=Min=0 Mean=0 Max=0
2019-05-27 00:32:07,358 INFO updater.py:272 -- NodeUpdater: Running uptime on 172.31.57.23...
2019-05-27 00:32:08,403 INFO updater.py:272 -- NodeUpdater: Running export RAY_HEAD_IP=172.31.58.46; sudo apt-get install -y build-essential on 172.31.55.204...
2019-05-27 00:32:08,729 INFO log_timer.py:21 -- NodeUpdater: i-09402f41cdaf55b70: Setup commands completed [LogTimer=6181ms]
2019-05-27 00:32:08,729 INFO log_timer.py:21 -- NodeUpdater: i-09402f41cdaf55b70: Applied config c4e33aa96ec128145b1a482dde318746d3aa8234 [LogTimer=26767ms]
2019-05-27 00:32:08,730 ERROR updater.py:145 -- NodeUpdater: i-09402f41cdaf55b70: Error updating (Exit Status 100) ssh -i ~/ray_bootstrap_key.pem -o ConnectTimeout=120s -o StrictHostKeyChecking=no -o ControlMaster=auto -o ControlPath=/tmp/ubuntu_ray_ssh_sockets/18_c48large/%C -o ControlPersist=10s ubuntu@172.31.55.204 bash --login -c -i 'true && source ~/.bashrc && export OMP_NUM_THREADS=1 PYTHONWARNINGS=ignore && export  RAY_HEAD_IP=172.31.58.46; sudo apt-get install -y build-essential'
Exception in thread Thread-5:
Traceback (most recent call last):
File "/home/ubuntu/anaconda3/lib/python3.6/threading.py", line 916, in _bootstrap_inner
self.run()
File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/updater.py", line 148, in run
raise e
File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/updater.py", line 137, in run
self.do_update()
File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/updater.py", line 236, in do_update
self.ssh_cmd(cmd, redirect=redirect)
File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/autoscaler/updater.py", line 295, in ssh_cmd
stderr=redirect or sys.stderr)
File "/home/ubuntu/anaconda3/lib/python3.6/subprocess.py", line 291, in check_call
raise CalledProcessError(retcode, cmd)
subprocess.CalledProcessError: Command '['ssh', '-i', '~/ray_bootstrap_key.pem', '-o', 'ConnectTimeout=120s', '-o', 'StrictHostKeyChecking=no', '-o', 'ControlMaster=auto', '-o', 'ControlPath=/tmp/ubuntu_ray_ssh_sockets/18_c48large/%C', '-o', 'ControlPersist=10s', 'ubuntu@172.31.55.204', "bash --login -c -i 'true && source ~/.bashrc && export OMP_NUM_THREADS=1 PYTHONWARNINGS=ignore && export    RAY_HEAD_IP=172.31.58.46; sudo apt-get install -y build-essential'"]' returned  non-zero exit status 100.

Затемто же исключение в Thread-7, за которым следуют: -

==> /tmp/ray/session_2019-05-27_00-31-35_902117_10123/logs/monitor.err <==
2019-05-27 00:33:17,843 INFO autoscaler.py:646 -- StandardAutoscaler: 2/2 target nodes (0 pending) (2 failed to update) (bringup=True)
2019-05-27 00:33:17,844 INFO autoscaler.py:647 -- LoadMetrics: MostDelayedHeartbeats={'172.31.55.204': 65.62029552459717, '172.31.57.23': 45.396358251571655, '172.31.58.46': 0.21964216232299805}, NodeIdleSeconds=Min=100 Mean=100 Max=100, NumNodesConnected=1, NumNodesUsed=0.0, ResourceUsage=0.0/36.0 b'CPU', TimeSinceLastHeartbeat=Min=0 Mean=37 Max=65

... повторяется бесконечно.

1 Ответ

0 голосов
/ 27 мая 2019

Я считаю, что состояние выхода 100 означает «Контейнер освобожден на потерянном узле».В этом случае проблема - сбой программы обновления на двух рабочих.Это та же проблема, что и у меня в оригинале: «Статус рабочего узла в кластере Ray EC2: обновление не выполнено», поэтому я закрываю этот вопрос.

...