Question

В MapReduce нам нужно написать bash-скрипты и запустить задания для получения данных.Я хочу получить данные легко, как мы запрашиваем в SQL для получения данных.Для этих целей мы можем использовать Hive, Pig, HBase, Sqoop, Flume, Oozie, ZooKeeper и Hue.

Но что лучше использовать здесь?
И все ли эти фреймворки используют MapReduce в фоновом режиме?

alexlod · Answer 1 · 05 декабря 2011

Что касается анализа данных, MapReduce - ваш единственный нативный вариант для запроса данных в HDFS или любой другой поддерживаемой файловой системе Hadoop. Тем не менее, такие решения, как Hive и Pig, создают абстракцию поверх Hadoop, позволяя писать PigLatin или Hive-SQL вместо Java. Pig и Hive компилируются в MapReduce.

Другой альтернативой является использование Потоковой передачи Hadoop , которая позволяет писать MapReduce на любом языке, включая Python, Ruby, bash и т. Д.

Какой вариант лучше, это ваше решение. MapReduce в Java всегда будет самым быстрым, потому что он родной, и у вас есть элементы управления для точной настройки вашей работы. Но Hive и Pig значительно быстрее развиваются и легче поддерживаются. Потоковая передача отлично подходит для людей, которые не любят или не знают Java, но все же хотят большего контроля, чем Hive и Pig, хотя в наши дни Hive и Pig довольно зрелые и очень гибкие.

Что я могу использовать вместо MapReduce в Hadoop, и хорошо ли это Hadoop для небольшого кластера?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Что я могу использовать вместо MapReduce в Hadoop, и хорошо ли это Hadoop для небольшого кластера?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы