Как spark создает этапы и делит их на небольшие задачи для потока данных spark? - PullRequest
0 голосов
/ 04 мая 2018

Когда я создаю поток данных в искре для входящих данных из kafka, я получаю следующее предупреждение - ПРЕДУПРЕЖДЕНИЕ TaskSetManager: Этап 1 содержит задачу очень большого размера (1057 КБ). Максимальный рекомендуемый размер задачи составляет 100 КБ.

Так что я думаю, что мне нужно увеличить размер задачи. Так можем ли мы решить эту проблему, увеличив число разделов для СДР? А как этап делится на небольшие задачи и как мы можем настроить размер этих задач?

Заранее спасибо.

1 Ответ

0 голосов
/ 04 мая 2018

Так можем ли мы решить эту проблему, увеличив число разделов для СДР?

Совсем нет. Размер задачи - это объем данных, отправляемых экспоненту. Это включает определение функции и сериализованное закрытие. Модификация сплитов здесь вам не поможет.

В общем, это предупреждение не критично, и я бы не стал сильно беспокоиться, но это подсказка, вам следует еще раз взглянуть на свой код:

  • Вы ссылаетесь на крупные объекты с помощью действий / преобразований? Если да, рассмотрите возможность использования широковещательных переменных.
  • Вы уверены, что отправляете только то, что ожидаете, не ограничивая область (например, большие объекты). Если проблема здесь, работайте над структурой вашего кода.
...