Question

У меня есть корзина S3, в которой потоковые данные (в формате Parquet) передаются в Spark Structured Streaming Framework от Kafka. Периодически я пытаюсь выполнить сжатие для этого сегмента (отдельное задание Spark), а при успешном сжатии удаляю не уплотненные (паркетные) файлы. После чего я получаю следующую ошибку на заданиях Spark, которые читают из этого сегмента:

Причина: java .io.FileNotFoundException: Нет такого файла или каталога: s3a: // spark -kafka-poc / промежуточный / part-00000-05ff7893-8a13-4dcd-aeed-3f0d4b5d1691-c000.gz.parquet

Как запустить сжатие для структурированных потоков S3-сегментов . Также мне нужно удалить некомпактированные файлы после успешного уплотнения, чтобы сэкономить место.

Apache Spark (структурированная потоковая передача): чтение из S3 (структурированной потоковой корзины) завершается ошибкой после сжатия

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Apache Spark (структурированная потоковая передача): чтение из S3 (структурированной потоковой корзины) завершается ошибкой после сжатия

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы