средство регистрации Hadoop? - PullRequest
       22

средство регистрации Hadoop?

2 голосов
/ 10 февраля 2012

Если я хочу использовать zookeeper в качестве рабочей очереди и подключать к нему отдельных потребителей / работников.Что бы вы порекомендовали в качестве хорошей распределенной установки для регистрации активности этих работников?

Допустим следующее:

1) В любое время мы можем использовать только один компьютер с кластером hadoop.Система будет автоматически масштабироваться по мере необходимости, но имеет много времени простоя, когда необходим только один компьютер.

2) Мне просто нужна возможность доступа ко всем журналам рабочих, не обращаясь к отдельной машине этого работника.находится по адресу.Имейте в виду, что к тому времени, когда я прочитаю один из этих журналов, машина вполне может быть прервана и давно уйдет.

3) Нам потребуется легкий доступ к журналам, т. Е. Возможность cat /grep и tail или, альтернативно, более SQLish - нам понадобится возможность в режиме реального времени как запрашивать, так и отслеживать выходные данные в течение коротких периодов времени в реальном времени.(т.е. tail -f /var/log/mylog.1)

Я ценю ваши экспертные идеи здесь!

Спасибо.

Ответы [ 2 ]

1 голос
/ 12 июля 2012

Рассматривали ли вы использование Flume, chukwa или scribe - убедитесь, что ваш процесс flume и т. Д. Имеет доступ к файлам журналов, которые вы пытаетесь объединить на централизованном сервере.

ссылка на поток: http://archive.cloudera.com/cdh/3/flume/Cookbook/

чуква: http://incubator.apache.org/chukwa/docs/r0.4.0/admin.html

писец: https://github.com/facebook/scribe/wiki/_pages

надеюсь, это поможет.

0 голосов
/ 17 ноября 2012

Fluentd Сборщик журналов только что выпустил свой плагин WebHDFS, который позволяет пользователям мгновенно передавать данные в HDFS.Это действительно легко установить с простотой управления.

enter image description here

Конечно, вы можете импортировать данные прямо из ваших приложений.Вот пример Java для публикации логов против Fluentd.Java-библиотека Fluentd достаточно умна для локального буферизации, когда демон Fluentd не работает.Это уменьшает вероятность потери данных.

Доступна также конфигурация высокой доступности, которая в основном позволяетвам нужна централизованная система агрегации журналов.

...