Все зависит от вашего бремени обслуживания.
Если бы oop, YARN, Kafka и Nifi - все это изолированные сервисы, которые требуют большой настройки и конфигурации. Каждый компонент, за исключением приема в Twitter, масштабируется независимо.
Вы можете использовать Kafka как тип буфера перед HDFS для пакетирования и обработки твитов перед посадкой в любую файловую систему. Кроме того, вы можете позже направлять твиты в Elasticsearch или Solr для поиска, а не массового анализа в Had oop
Для более быстрых запросов используйте Presto, Kudu, Spark или Impala вместо Hive