что такое мертвый исполнитель в искре (Писпарк) - PullRequest
0 голосов
/ 08 января 2020

Я выполняю работу pyspark, где я заметил, что есть мертвые исполнители, но работа, наконец, прошла успешно. Каково влияние этого, когда исполнитель мертв. Что происходит, когда исполнитель, выполнив задание, теряет соединение и убивает себя. Возникает ли задача снова при получении нового исполнителя, что приводит к двухкратному выполнению одной и той же задачи?

Пожалуйста, помогите мне понять это.

1 Ответ

0 голосов
/ 08 января 2020

Для начала я думаю, что достаточно просто взять страницу с искрой в Википедии:

https://en.m.wikipedia.org/wiki/Apache_Spark

В основном, искра обрабатывает данные отказоустойчивым способом, что в основном означает, что некоторые подходы к оценке вашего фрейма данных могут потерпеть неудачу, некоторые могут быть успешными, и в этом нет ничего плохого. После неудачи это должно просто улучшиться. Если не слишком много сбоев и не сбои всей работы.

Spark разумно знает, как обрабатывать данные, но иногда вы можете (или вынуждены в случае слишком большого количества сбоев) помочь с помощью более эффективной ручной настройки, такой как например, установка контекста spark с правильными параметрами или более разумная организация запросов (переосмысление объединений, трансляция, возможно, разбивка больших таблиц на более мелкие куски).

Из моего опыта - лучше настроенная работа = меньше сбоев и более быстрая обработка. Иногда требуется много времени, чтобы понять, как сделать вашу обработку более эффективной, но вы должны стремиться к меньшему количеству сбоев и более быстрой обработке, поскольку это 2 индикатора лучшей работы зажигания.

Надеюсь, это поможет

...