Question

У меня есть некоторые проблемы при запуске потокового воспроизведения в моем кластере.

Во-первых, я знаю, что спекулятивные задачи вызваны медленным выполнением некоторых исполнителей, но некоторые задачи не спекулятивныетакже работает медленно с колонкой 'input size / Record', показывающей сеть, в то время как другой показывает память.Вот снимок экрана:

, поэтому кто-то может сказать мне, в чем разница между памятью и сетью в столбце «Размер ввода / Запись»?Спасибо!

hi-zir · Answer 1 · 25 апреля 2018

Размер данных здесь не проблема. На основе скриншота все разделы более или менее одинакового размера.

В действительности проблема заключается в локальности данных. К большинству данных можно получить доступ локально, однако проблемные из-за них вынуждены использовать RACK_LOCAL, и, поскольку это занимает намного больше времени, чем ожидаемое спекулятивное выполнение, запускается и пытается с ANY.

Здесь недостаточно информации для полной диагностики проблемы, но вы можете попробовать увеличить свойство spark.locality.wait (по умолчанию 3 секунды).

В чем разница между памятью и сетью в столбце 'input size / Record' в spark ui?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

В чем разница между памятью и сетью в столбце 'input size / Record' в spark ui?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов