Различия в распределении Hadoop - PullRequest
       12

Различия в распределении Hadoop

20 голосов
/ 11 сентября 2009

Может ли кто-нибудь описать различные различия между различными доступными дистрибутивами Hadoop:

с использованием дистрибутива Apache Hadoop в качестве базовой линии.

Есть ли веская причина для использования одного из этих дистрибутивов над стандартным дистрибутивом Apache Hadoop?

Ответы [ 4 ]

14 голосов
/ 13 сентября 2009

Отказ от ответственности: я проходил стажировку в Cloudera этим летом (но некоторые из моих лучших друзей в Yahoo!: -))

Дистрибутив Yahoo - это версия Hadoop 20, которую они запускают (запускали?) В некотором подмножестве своих кластеров. Он включает в себя набор исправлений для стабильности, исправления ошибок и т. Д. Это исходный выпуск; он не имеет удобных для администратора функций, таких как пакеты rpm или debian и т. д.

Дистрибутив Cloudera представляет собой пакеты в виде rpms и debs (источник также доступен). Это означает, что вы можете получать обновления стандартными методами и т. Д. Сюда также входят исправления стабильности и исправления ошибок. Он постоянно поддерживается (не говоря о том, что у Yahoo нет - я полагаю, можно просто пойти на github и проверить, когда они последний раз обновляли его). Он также упаковывает Свинью и Улей.

Распределение Hadoop 20 от Cloudera находится в бета-версии, а 18 считается стабильным (подробнее об этом в блоге Cloudera ). 18 версия также включает в себя пакеты для Hive и Pig; для 20 вы должны собрать их самостоятельно (пока нет официальных релизов Pig или Hive, которые поддерживают 20, хотя патчи существуют). Вполне может быть значительное совпадение между версиями 20 Cloudera и Yahoo; оба предоставляют манифесты, так что вы можете проверить. Последняя документация дистрибутивов Cloudera находится по адресу http://archive.cloudera.com

Yahoo не предоставляет поддержку для их распространения; они предоставляют свою исправленную версию в качестве услуги для сообщества, поэтому заинтересованные люди могут создать то, что Yahoo работает внутри компании. Учитывая размер кластеров Yahoo, это значительный вклад, особенно если вы не являетесь разработчиком Hadoop, который все время следует JIRA. Cloudera поддерживает их распространение на коммерческой основе, а также обеспечивает некоторую поддержку сообщества через списки рассылки Hadoop и, по конкретным вопросам, на своей странице GetSatisfaction.

Оба довольно сильно отличаются от ванильного дистрибутива Apache, поскольку они исправляют его между выпусками (версия cloudera 20 имеет более 60 исправлений!).

4 голосов
/ 03 августа 2011

Yahoo прекратила собственное распространение и сосредоточилась на Apache Hadoop.

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of-hadoop/

http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

Недавно HortonWorks (www.hortonworks.com) вышел из Yahoo. И теперь HortonWorks также будет оказывать поддержку в отличие от Yahoo.

http://www.hortonworks.com/about-us/our-manifesto/

Cloudera в том же духе, что и HortonWorks

http://www.cloudera.com/products-services/

Основное отличие заключается в том, что HortonWorks хочет сделать дистрибутивы Apache стабильными, простыми в установке и другими. В то время как Cloudera имеет собственный дистрибутив CDH * на основе Apache Hadoop.

1 голос
/ 24 июля 2013

Существуют разные причины выбора дистрибутива Hadoop, например Cloudera, Hortonworks или MapR вместо Apache Hadoop. Два больших преимущества - это поддержка инструментов и коммерческая поддержка. У вас также много проблем с «сбором и интеграцией» всех платформ Hadoop, таких как Pig, Hive и т. Д., В правильных и совместимых версиях.

Взгляните на мою статью в InfoQ. В нем объясняются различия между Apache Hadoop, дистрибутивами Hadoop и наборами больших данных, а также когда и какой из них использовать:

http://www.infoq.com/articles/BigDataPlatform

С уважением,

Кай Венер (@KaiWaehner, www.kai-waehner.de/blog)

0 голосов
/ 07 марта 2010

SquareCog подходит практически по всем пунктам, кроме: Yahoo! Распределение - это то, что выполняется во всех производственных кластерах в Yahoo !, а не в их подмножестве. Это более 25 000 машин. Yahoo! дистрибутив прошел обширное сквозное тестирование, необходимое для обеспечения надежной и стабильной работы. Другой дистрибутив более либерален в отношении применения исправлений и может иметь больше возможностей, но не был протестирован так широко.

...