Фиксация контрольных точек в искровых структурированных потоках - PullRequest
0 голосов
/ 04 мая 2018

У меня проблема с контрольными точками в рабочей среде, когда spark не может найти файл из папки _spark_metadata

18/05/04 16:59:55 INFO FileStreamSinkLog: Set the compact interval to 10 [defaultCompactInterval: 10]
18/05/04 16:59:55 INFO DelegatingS3FileSystem: Getting file status for 's3u://data-bucket-prod/data/internal/_spark_metadata/19.compact'
18/05/04 16:59:55 ERROR FileFormatWriter: Aborting job null.
java.lang.IllegalStateException: s3u://data-bucket-prod/data/internal/_spark_metadata/19.compact doesn't exist when compacting batch 29 (compactInterval: 10)

Уже был задан вопрос , но пока нет решения.

В папке контрольных точек я вижу, что пакет 29 еще не зафиксирован, поэтому я могу удалить что-то из контрольных точек sources, state и / или offsets, чтобы предотвратить сбой искры из-за отсутствия файла _spark_metadata/19.compact?

1 Ответ

0 голосов
/ 14 июня 2018

Проблема в том, что вы храните свои контрольные точки на S3. Контрольные точки в S3 не на 100% надежны. Чтобы узнать о точной причине, почему S3 не надежен, прочитайте эту статью .

Решение 1. Использование HDFS для хранения контрольных точек

Решение 2. Используйте EFS, если вы хотите использовать Amazon Web Services. В приведенной выше статье подробно описаны все этапы настройки EFS.

Решение 3. Используйте NFS

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...