AWS EMR Presto Cluster внезапно прерван Ошибка: все подчиненные в потоке работ были прерваны из-за Spot - PullRequest
0 голосов
/ 13 января 2020

У меня проблемы с AWS EMR PrestoDB. Я запустил кластер с главными узлами в качестве координаторов и основными узлами в качестве рабочих. Основные узлы были точечными экземплярами. Но мастер-узел был по запросу. После 5 недель запуска кластера, я получил это сообщение об ошибке

Terminated with errorsAll slaves in the job flow were terminated due to Spot

Это означает, что если все подчиненные устройства будут прерваны, сам кластер прекратит работу? Я вижу историю спотовых цен, и она не достигла максимальной установленной мной цены.

Что я уже сделал? Я проверил журналы, которые сбрасываются на s3. Я не нашел никакой информации о причине прекращения. Он просто сказал

Failed to visit ... <many directories>

Ответы [ 2 ]

0 голосов
/ 10 февраля 2020

Я отвечаю на свой вопрос. Согласно сообществу Presto, в кластере AWS EMR Presto должен быть запущен и запущен хотя бы один главный узел. Но так как он был прерван, весь кластер был прерван.

0 голосов
/ 15 января 2020

Чтобы избежать потери данных из-за спотовой цены / прерывания, данные должны быть зарезервированы либо снимком, частым копированием на s3 или оставлением объема EBS. Ссылка: https://aws.amazon.com/premiumsupport/knowledge-center/spot-instance-terminate/

Ваш кластер должен все еще работать, но без узлов задач. Под Cluster-> Details -> Hardware вы можете добавить узлы задачи. Добавление узлов задач

Аналогичный сценарий: AWS Ошибка EMR: все подчиненные в потоке работ были прерваны

Для использования Spot вам может потребоваться использовать экземпляр уведомления о прекращении, а также установить максимальную цену: https://aws.amazon.com/blogs/compute/new-amazon-ec2-spot-pricing/

...