Question

Я хочу сделать проект, в котором я транслирую несколько твитов, чтобы проанализировать их в Hive, весь этот процесс должен быть выполнен в HDF / NiFi. Проект должен быть масштабируемым. Я видел на сайте Cloudera, что люди выбирают двух разных стратегов потока.

1.) Получите твиты ---> Поместите их в HDFS ---> проанализируйте с помощью Hive

2. ) Получить твиты ---> Поток с Kafka (публикация / потребитель) ---> Поместить их в HDFS ---> Анализ с помощью Hive

ТАК, мой вопрос в чем разница? первая стратегия не масштабируема? Какой стратегии вы бы придерживались? Спасибо.

cricket_007 · Answer 1 · 06 марта 2020

Все зависит от вашего бремени обслуживания.

Если бы oop, YARN, Kafka и Nifi - все это изолированные сервисы, которые требуют большой настройки и конфигурации. Каждый компонент, за исключением приема в Twitter, масштабируется независимо.

Вы можете использовать Kafka как тип буфера перед HDFS для пакетирования и обработки твитов перед посадкой в любую файловую систему. Кроме того, вы можете позже направлять твиты в Elasticsearch или Solr для поиска, а не массового анализа в Had oop

Для более быстрых запросов используйте Presto, Kudu, Spark или Impala вместо Hive

Потоковые твиты с кафкой и без нее для анализа в Hive

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Потоковые твиты с кафкой и без нее для анализа в Hive

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы