Я написал простое приложение для паровой обработки со структурой искры для перемещения данных из Kafka в S3. Обнаружено, что для поддержки единовременной гарантии искра создает папку _spark_metadata, которая в конечном итоге становится слишком большой, поскольку потоковое приложение ПРЕДНАЗНАЧЕНО для работы НАВСЕГДА. Но когда потоковое приложение работает долгое время, папка метаданных становится настолько большой, что мы начинаем получать ошибки OOM. Единственный способ разрешить OOM - удалить контрольную точку и папку метаданных и потерять ЦЕННЫЕ данные клиентов.
Spark открыть JIRA SPARK-24295 и SPARK-29995, SPARK-30462 и SPARK-24295)
Поскольку Spark Streaming НЕ нарушался таким образом. Spark Streaming - ЛУЧШИЙ выбор?