У меня есть сжатые сжатые данные в формате паркета в S3. Мы запускаем искровое задание для фильтрации данных и сохранения подмножества данных в S3. Во время фильтрации задание «спарк» распаковывает данные, а затем фильтрует их. Хотя распаковка этого задания искры завершается неудачно, если она не может распаковать.
Я хочу вручную распаковать этот набор данных Spark (Dataset<Row>
in Java) как часть отдельной работы, используя Snappy, чтобы выяснить, данные в наборе данных могут быть несжатыми или нет.