Question

Что-то не так с контрольной точкой потоковой передачи искры, пожалуйста, помогите мне, спасибо!

Существует два типа контрольных точек (метаданные и контрольные точки данных).И в руководствах сказано, что при использовании преобразований с сохранением состояния используется контрольная точка данных.Я очень смущен по этому поводу.Если я не использую преобразования с сохранением состояния, будет ли Spark записывать содержимое контрольных точек данных?
Могу ли я контролировать положение контрольной точки в кодах?Могу ли я контролировать, какой rdd может быть записан в данные контрольных точек данных при потоковой передаче, как задание пакетной обработки?Могу ли я использовать foreachRDD rdd => rdd.checkpoint() в потоковой передаче?
Если я не использую rdd.checkpoint(), каково поведение Spark по умолчанию?Какой rdd можно записать в HDFS?

VahagnNikoghosian · Answer 1 · 27 февраля 2019

Вы можете найти отличное руководство с помощью этой ссылки .

Нет, данные контрольных точек не нужны, поскольку в случае вычисления без сохранения состояния вам не нужны промежуточные данные.
Я не думаю, что вам нужна контрольная точка после rdd после вычисления в потоковом режиме.Контрольная точка rdd предназначена для решения проблемы происхождения, контрольная точка потоковой передачи - это надежность потоковой передачи и восстановление после сбоев.

контрольно-пропускной пункт искрового контроля: контроль контрольных точек данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.