Основы Hadoop: что мне делать с выводом? - PullRequest
2 голосов
/ 17 мая 2011

(я уверен, что подобный вопрос существует, но я еще не нашел ответ, который искал.)

Я использую Hadoop и Hive (для наших разработчиков, знакомых с SQL) для пакетной обработки нескольких терабайт данных каждую ночь.Исходя из нескольких сотен массивных CSV-файлов, я вывожу четыре или пять довольно больших CSV-файлов.Очевидно, Hive хранит их в HDFS.Первоначально эти входные файлы были извлечены из гигантского хранилища данных SQL.

Hadoop чрезвычайно важен для своей работы.Но каков отраслевой стандарт для обработки выходных данных? Сейчас я использую сценарий оболочки, чтобы скопировать их обратно в локальную папку и загрузить в другое хранилище данных.

Этот вопрос: ( Hadoop и MySQL Integration ) вызывает практику повторного импорта экспорта Hadoop нестандартно. Как исследовать мои данные с помощью инструмента BI или интегрировать результаты в мое приложение ASP.NET? Экономия?Protobuf?Улей ODBC API Драйвер?Должен быть лучший способ .....

Просвети меня.

1 Ответ

3 голосов
/ 08 июня 2011

На foursquare я использую драйвер Thiveft Hive, чтобы при необходимости помещать данные в базы данных / электронные таблицы.

Я поддерживаю сервер заданий, который выполняет задания через драйвер Hive, а затем перемещает выходные данные туда, где это необходимо,Прямое использование Thrift очень просто и позволяет вам использовать любой язык программирования.

Если вы имеете дело с hadoop напрямую (и не можете его использовать), вы должны проверить Sqoop, созданный Cloudera

Sqoop предназначен для перемещения данных в пакетном режиме (тогда как Flume предназначен для перемещения их в режиме реального времени и, по-видимому, в большей степени соответствует размещению данных в формате hdf, чем их извлечению).Надеюсь, это поможет.

...