Snappy распаковывает набор данных в Java - PullRequest
0 голосов
/ 18 февраля 2020

У меня есть сжатые сжатые данные в формате паркета в S3. Мы запускаем искровое задание для фильтрации данных и сохранения подмножества данных в S3. Во время фильтрации задание «спарк» распаковывает данные, а затем фильтрует их. Хотя распаковка этого задания искры завершается неудачно, если она не может распаковать.

Я хочу вручную распаковать этот набор данных Spark (Dataset<Row> in Java) как часть отдельной работы, используя Snappy, чтобы выяснить, данные в наборе данных могут быть несжатыми или нет.

...