Потоковые твиты с кафкой и без нее для анализа в Hive - PullRequest
0 голосов
/ 06 марта 2020

Я хочу сделать проект, в котором я транслирую несколько твитов, чтобы проанализировать их в Hive, весь этот процесс должен быть выполнен в HDF / NiFi. Проект должен быть масштабируемым. Я видел на сайте Cloudera, что люди выбирают двух разных стратегов потока.

1.) Получите твиты ---> Поместите их в HDFS ---> проанализируйте с помощью Hive

2. ) Получить твиты ---> Поток с Kafka (публикация / потребитель) ---> Поместить их в HDFS ---> Анализ с помощью Hive

ТАК, мой вопрос в чем разница? первая стратегия не масштабируема? Какой стратегии вы бы придерживались? Спасибо.

1 Ответ

0 голосов
/ 06 марта 2020

Все зависит от вашего бремени обслуживания.

Если бы oop, YARN, Kafka и Nifi - все это изолированные сервисы, которые требуют большой настройки и конфигурации. Каждый компонент, за исключением приема в Twitter, масштабируется независимо.

Вы можете использовать Kafka как тип буфера перед HDFS для пакетирования и обработки твитов перед посадкой в ​​любую файловую систему. Кроме того, вы можете позже направлять твиты в Elasticsearch или Solr для поиска, а не массового анализа в Had oop

Для более быстрых запросов используйте Presto, Kudu, Spark или Impala вместо Hive

...