Отключение декомпрессии ввода Gzip в AWS Elastic Map Reduce - PullRequest
2 голосов
/ 28 марта 2012

Я запускаю задачу MapReduce для сжатых файлов .arc. Подобно этому вопросу , у меня возникли трудности, поскольку распаковка Gzip запускается автоматически (поскольку файлы имеют расширение .gz), но это вызывает проблемы при переводе новой строки / возврата каретки, отображаемой как просто новая строка, как в кодировке файлов Unix. Это делает ввод полностью нечитаемым, поскольку он зависит от количества символов, встроенных в файл. Я пытаюсь отключить распаковку Gzip, чтобы я мог сделать это вместо этого в моем картографе, правильно. Я пробовал:

 -jobconf stream.recordreader.compression=none

Но это, похоже, не влияет на сжатие. Можно ли как-нибудь предотвратить распаковку Gzip на моем входе?

Спасибо, -Выбери

1 Ответ

2 голосов
/ 28 марта 2012

Я определил потенциальную проблему и обошел вопрос, на который вы ссылались:

В основном это проблема в PipeMapper.java, которую вы можете легко исправить

...