Как принудительно установить контрольные точки в HDFS во время длительных заданий структурированной потоковой передачи - PullRequest
0 голосов
/ 01 февраля 2019

Я выполняю несколько давних заданий Spark Structured Streaming, которые содержат несколько параллельных запросов и агрегатов, контрольные точки хранятся в HDFS.

Контрольные точки приводят ко многим транзакциям чтения и записи из HDFS, что приводит к созданию большого edits_* в наменоде HDFS.В соответствии с документацией после настроенного порога транзакций или свернутых файлов редактирования необходимо создать новое изображение, позволяющее своевременно удалять файлы edits_*.Этого не происходит, вместо этого файлы накапливаются до тех пор, пока память HDFS не заполнится и не включится безопасный режим, что приведет к сбою задания структурированной потоковой передачи.

Я попытался запустить hdfs dfsadmin -saveNamespace вручную, однако для этого необходимо включить безопасный режим, что приведет к сбою задания.

Можно ли принудительно сохранить изображение, чтобы мое структурированное потоковое задание не упало?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...