Apache Spark (структурированная потоковая передача): чтение из S3 (структурированной потоковой корзины) завершается ошибкой после сжатия - PullRequest
0 голосов
/ 28 апреля 2020

У меня есть корзина S3, в которой потоковые данные (в формате Parquet) передаются в Spark Structured Streaming Framework от Kafka. Периодически я пытаюсь выполнить сжатие для этого сегмента (отдельное задание Spark), а при успешном сжатии удаляю не уплотненные (паркетные) файлы. После чего я получаю следующую ошибку на заданиях Spark, которые читают из этого сегмента:

Причина: java .io.FileNotFoundException: Нет такого файла или каталога: s3a: // spark -kafka-poc / промежуточный / part-00000-05ff7893-8a13-4dcd-aeed-3f0d4b5d1691-c000.gz.parquet

Как запустить сжатие для структурированных потоков S3-сегментов . Также мне нужно удалить некомпактированные файлы после успешного уплотнения, чтобы сэкономить место.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...