На foursquare я использую драйвер Thiveft Hive, чтобы при необходимости помещать данные в базы данных / электронные таблицы.
Я поддерживаю сервер заданий, который выполняет задания через драйвер Hive, а затем перемещает выходные данные туда, где это необходимо,Прямое использование Thrift очень просто и позволяет вам использовать любой язык программирования.
Если вы имеете дело с hadoop напрямую (и не можете его использовать), вы должны проверить Sqoop, созданный Cloudera
Sqoop предназначен для перемещения данных в пакетном режиме (тогда как Flume предназначен для перемещения их в режиме реального времени и, по-видимому, в большей степени соответствует размещению данных в формате hdf, чем их извлечению).Надеюсь, это поможет.