Сжатие Lzo было удалено из Hadoop 0.20.x из-за проблем с лицензированием.Если вы хотите обрабатывать файлы lzo-сжатых последовательностей, необходимо установить и настроить собственные библиотеки lzo в кластере hadoop.
Проект Кевина Hadoop-lzo является текущим рабочим решением, о котором я знаю.Я попробовал это.Это работает.
Установите (если это еще не сделано) пакеты lzo-devel на ОС.Эти пакеты включают сжатие lzo на уровне операционной системы, без которого не будет работать сжатие lzo hadoop.
Следуйте инструкциям, указанным в readme-файле hadoop-lzo, и скомпилируйте его.После сборки вы получите нативные библиотеки hadoop-lzo-lib jar и hadoop lzo.Убедитесь, что вы скомпилировали его с компьютера (или компьютера с той же аркой), на котором сконфигурирован ваш кластер.
Требуются также стандартные нативные библиотеки Hadoop, которые были предоставлены в дистрибутиве по умолчанию для linux.Если вы используете Solaris, вам также потребуется собрать hadoop из исходного порядка, чтобы получить стандартные нативные библиотеки hadoop.
Перезапустите кластер после внесения всех изменений.