Отказ от ответственности: я проходил стажировку в Cloudera этим летом (но некоторые из моих лучших друзей в Yahoo!: -))
Дистрибутив Yahoo - это версия Hadoop 20, которую они запускают (запускали?) В некотором подмножестве своих кластеров. Он включает в себя набор исправлений для стабильности, исправления ошибок и т. Д. Это исходный выпуск; он не имеет удобных для администратора функций, таких как пакеты rpm или debian и т. д.
Дистрибутив Cloudera представляет собой пакеты в виде rpms и debs (источник также доступен). Это означает, что вы можете получать обновления стандартными методами и т. Д. Сюда также входят исправления стабильности и исправления ошибок. Он постоянно поддерживается (не говоря о том, что у Yahoo нет - я полагаю, можно просто пойти на github и проверить, когда они последний раз обновляли его). Он также упаковывает Свинью и Улей.
Распределение Hadoop 20 от Cloudera находится в бета-версии, а 18 считается стабильным (подробнее об этом в блоге Cloudera ). 18 версия также включает в себя пакеты для Hive и Pig; для 20 вы должны собрать их самостоятельно (пока нет официальных релизов Pig или Hive, которые поддерживают 20, хотя патчи существуют). Вполне может быть значительное совпадение между версиями 20 Cloudera и Yahoo; оба предоставляют манифесты, так что вы можете проверить. Последняя документация дистрибутивов Cloudera находится по адресу http://archive.cloudera.com
Yahoo не предоставляет поддержку для их распространения; они предоставляют свою исправленную версию в качестве услуги для сообщества, поэтому заинтересованные люди могут создать то, что Yahoo работает внутри компании. Учитывая размер кластеров Yahoo, это значительный вклад, особенно если вы не являетесь разработчиком Hadoop, который все время следует JIRA. Cloudera поддерживает их распространение на коммерческой основе, а также обеспечивает некоторую поддержку сообщества через списки рассылки Hadoop и, по конкретным вопросам, на своей странице GetSatisfaction.
Оба довольно сильно отличаются от ванильного дистрибутива Apache, поскольку они исправляют его между выпусками (версия cloudera 20 имеет более 60 исправлений!).