Как мы получаем твиттер (твиты) в HDFS для автономного анализа. у нас есть требование для анализа твитов.
Я бы искал решение в хорошо развитой области потоковых логов в hadoop, поскольку задача выглядит несколько похожей. Существуют две существующие системы: Flume: https://github.com/cloudera/flume/wiki И Писец: https://github.com/facebook/scribe
Так что ваша задача будетбыть только для извлечения данных из твиттера, что, как я полагаю, не является частью этого вопроса и кормить одну из этих систем с этими журналами.
Fluentd Сборщик журналов только что выпустил свой плагин WebHDFS, который позволяет пользователям мгновенно передавать данные в HDFS.
Также с помощью fluent-plugin-twitter вы можете собирать потоки Twitter, вызывая его API.Конечно, вы можете создать свой собственный сборщик, который отправляет потоки на Fluentd.Вот пример Ruby для публикации журналов в Fluentd.
Это может быть решением вашей проблемы.
Инструменты для захвата твитов Twitter
Захватывайте их в любом формате.(CSV, TXT, DOC, PDF ... и т. д.)