Я выполняю несколько давних заданий Spark Structured Streaming, которые содержат несколько параллельных запросов и агрегатов, контрольные точки хранятся в HDFS.
Контрольные точки приводят ко многим транзакциям чтения и записи из HDFS, что приводит к созданию большого edits_*
в наменоде HDFS.В соответствии с документацией после настроенного порога транзакций или свернутых файлов редактирования необходимо создать новое изображение, позволяющее своевременно удалять файлы edits_*
.Этого не происходит, вместо этого файлы накапливаются до тех пор, пока память HDFS не заполнится и не включится безопасный режим, что приведет к сбою задания структурированной потоковой передачи.
Я попытался запустить hdfs dfsadmin -saveNamespace
вручную, однако для этого необходимо включить безопасный режим, что приведет к сбою задания.
Можно ли принудительно сохранить изображение, чтобы мое структурированное потоковое задание не упало?