контрольно-пропускной пункт искрового контроля: контроль контрольных точек данных - PullRequest
0 голосов
/ 27 февраля 2019

Что-то не так с контрольной точкой потоковой передачи искры, пожалуйста, помогите мне, спасибо!

  1. Существует два типа контрольных точек (метаданные и контрольные точки данных).И в руководствах сказано, что при использовании преобразований с сохранением состояния используется контрольная точка данных.Я очень смущен по этому поводу.Если я не использую преобразования с сохранением состояния, будет ли Spark записывать содержимое контрольных точек данных?

  2. Могу ли я контролировать положение контрольной точки в кодах?Могу ли я контролировать, какой rdd может быть записан в данные контрольных точек данных при потоковой передаче, как задание пакетной обработки?Могу ли я использовать foreachRDD rdd => rdd.checkpoint() в потоковой передаче?

  3. Если я не использую rdd.checkpoint(), каково поведение Spark по умолчанию?Какой rdd можно записать в HDFS?

1 Ответ

0 голосов
/ 27 февраля 2019

Вы можете найти отличное руководство с помощью этой ссылки .

  1. Нет, данные контрольных точек не нужны, поскольку в случае вычисления без сохранения состояния вам не нужны промежуточные данные.
  2. Я не думаю, что вам нужна контрольная точка после rdd после вычисления в потоковом режиме.Контрольная точка rdd предназначена для решения проблемы происхождения, контрольная точка потоковой передачи - это надежность потоковой передачи и восстановление после сбоев.
...