Итак, я видел несколько обучающих программ для этого онлайн, но каждый, кажется, говорит что-то свое.Кроме того, каждый из них, похоже, не указывает, пытаетесь ли вы заставить вещи работать на удаленном кластере или локально взаимодействовать с удаленным кластером и т. Д.
Тем не менее, моя цельэто просто заставить мой локальный компьютер (mac) заставить работать свинью с lzo-сжатыми файлами, которые существуют в кластере Hadoop, который уже настроен для работы с lzo-файлами.У меня уже есть локально установленный Hadoop, и я могу получать файлы из кластера с hadoop fs -[command]
.
. У меня также уже есть локально установленный pig и общение с кластером hadoop, когда я запускаю скрипты или просто запускаю вещи через grunt.Я могу нормально загружать и воспроизводить файлы, не относящиеся к lzo.Моя проблема только в том, чтобы выяснить способ загрузки файлов lzo.Может быть, я могу просто обработать их через экземпляр ElephantBird кластера?Я понятия не имею, и нашел только минимальную информацию в Интернете.
Итак, любой краткий учебник или ответ на этот вопрос был бы замечательным и, надеюсь, помог бы большему количеству людей, чем только я.