Twitter - потоковая передача данных Hadoop - PullRequest
1 голос
/ 07 февраля 2012

Как мы получаем твиттер (твиты) в HDFS для автономного анализа. у нас есть требование для анализа твитов.

Ответы [ 3 ]

3 голосов
/ 07 февраля 2012

Я бы искал решение в хорошо развитой области потоковых логов в hadoop, поскольку задача выглядит несколько похожей.
Существуют две существующие системы:
Flume: https://github.com/cloudera/flume/wiki
И
Писец: https://github.com/facebook/scribe

Так что ваша задача будетбыть только для извлечения данных из твиттера, что, как я полагаю, не является частью этого вопроса и кормить одну из этих систем с этими журналами.

1 голос
/ 17 ноября 2012

Fluentd Сборщик журналов только что выпустил свой плагин WebHDFS, который позволяет пользователям мгновенно передавать данные в HDFS.

enter image description here

Также с помощью fluent-plugin-twitter вы можете собирать потоки Twitter, вызывая его API.Конечно, вы можете создать свой собственный сборщик, который отправляет потоки на Fluentd.Вот пример Ruby для публикации журналов в Fluentd.

0 голосов
/ 07 февраля 2012

Это может быть решением вашей проблемы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...