Запись проблемы производительности в S3 из приложения Spark Structured Streaming - PullRequest
1 голос
/ 24 октября 2019

В основном я выполняю структурированное потоковое задание 24 x 7, записывая в S3. Но натолкнулся на эту проблему: _spark_metadata тратит часы на написание одного файла, в течение этого времени новые поступления данных не активны.

Есть идеи, как решить эту проблему и обеспечить беспроблемный прием пищи?

19/10/24 00:48:34 INFO ExecutorAllocationManager: Existing executor 40 has been removed (new total is 1)
19/10/24 00:49:03 INFO CheckpointFileManager: Writing atomically to s3a://.../data/_spark_metadata/88429.compact using temp file s3a://.../data/_spark_metadata/.88429.compact.00eb0d4b-ec83-4f8c-9a67-4155918a5f83.tmp
19/10/24 03:32:53 INFO CheckpointFileManager: Renamed temp file s3a://.../data/_spark_metadata/.88429.compact.00eb0d4b-ec83-4f8c-9a67-4155918a5f83.tmp to s3a://brivo-prod-dataplatform-kafka-streaming/data/_spark_metadata/88429.compact
19/10/24 03:32:53 INFO FileStreamSinkLog: Current compact batch id = 88429 min compaction batch id to delete = 88329
19/10/24 03:32:54 INFO ManifestFileCommitProtocol: Committed batch 88429

1 Ответ

0 голосов
/ 24 октября 2019

переименование имитируется на s3 с копией, затем удалением и является O (данные). Контрольная точка чаще для создания небольших файлов

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...