Я могу предложить несколько мыслей:
1: Документация и примеры были серьезной проблемой для моих проектов, использующих Hadoop и связанных с ним проектов.По сравнению с MySQL часто бывает трудно найти, какие функции доступны и как их использовать.Списки рассылки оказали большую помощь в этом отношении.Научиться мыслить с точки зрения пакетной обработки и «полного сканирования таблиц» также было корректировкой, и привыкнуть к программированию Map Reduce нетривиально, хотя есть много инструментов, которые могут оградить вас от написания необработанного сокращения карты.
2: Большая часть базы кода Hadoop & friends по-прежнему в основном альфа-версия, и иногда многое меняется от версии к версии.Вы определенно захотите, чтобы тестовый кластер сначала выполнил обновление и посмотрел, что сломалось.Драматические изменения API не являются неожиданными при обновлении.
3: я специально не работал с memcached, и я использую Hadoop для обработки ETL на сервере, а не для рендеринга страниц.Здесь я не могу вам помочь.
4: Лучший способ понять проекты - это получить код и начать смотреть на него.Потренируйтесь в использовании этого на некоторое время, и в конце концов вы найдете то, что, по вашему мнению, могло бы быть лучше, или функцию, которую вы хотите.Это так же хорошее место, как и любое другое.Обязательно подпишитесь на списки рассылки для разработчиков и обратите внимание на существующий список ошибок и запросов функций, чтобы увидеть, работает ли кто-то над чем-то похожим.В большинстве этих проектов вам понадобится, чтобы кто-то с правами коммитов вставил ваш код, но это не так уж сложно.Читайте о конкретном проекте, в который вы хотите внести свой вклад, для получения более конкретной информации.