Примерно через 2 года после моего последнего ответа появились две новые альтернативы - Hoop / HttpFS и WebHDFS.
Что касается Hoop, он впервые был анонсирован в блоге Cloudera и может быть загружен из репозитория github . Мне удалось заставить эту версию успешно общаться, по крайней мере, с Hadoop 0.20.1, возможно, она может работать и с немного более старыми версиями.
Если вы используете Hadoop 0.23.1, который на момент написания еще не выпущен, Hoop вместо этого является частью Hadoop как своего собственного компонента, HttpFS. Эта работа была выполнена в рамках HDFS-2178 . Hoop / HttpFS может быть прокси не только для HDFS, но и для других Hadoop-совместимых файловых систем, таких как Amazon S3.
Hoop / HttpFS работает как отдельная служба.
Существует также WebHDFS , который работает как часть служб NameNode и DataNode. Он также предоставляет REST API, который, если я правильно понимаю, совместим с HttpFS API. WebHDFS является частью Hadoop 1.0, и одна из его основных функций заключается в том, что он обеспечивает локальность данных - когда вы делаете запрос на чтение, вы будете перенаправлены на компонент WebHDFS в датоде, где находятся данные.
Какой компонент выбрать, зависит немного от вашей текущей настройки и того, что вам нужно. Если вам нужен интерфейс HTTP REST для HDFS сейчас, и вы используете версию, которая не включает WebHDFS, запуск с Hoop из репозитория github кажется самым простым вариантом. Если вы работаете с версией, которая включает в себя WebHDFS, я бы пошел на это, если вам не нужны некоторые функции, которые есть у Hoop, которых нет в WebHDFS (доступ к другим файловым системам, ограничение пропускной способности и т. Д.)