Первая проблема, с которой вы можете столкнуться, заключается в том, как надежно собирать огромные объемы данных при простоте управления.Существует несколько реализаций с открытым исходным кодом, таких как syslog, Fluentd , Scribe и Flume :)
Большая проблемакак хранить и обрабатывать данные.Как вы указали, использование NoSQL-решения работает очень хорошо, но вам нужно выбирать среди них в зависимости от объема ваших данных.
Сначала вы можете использовать MongoDB для хранения всех ваших данных., но в какой-то момент вы в конечном итоге используете Apache Hadoop для создания масштабируемой архитектуры.
Дело в том, что у вас должен быть распределенный уровень ведения журнала, который абстрагирует бэкэнд хранилища, и выбираетеправильное решение NoSQL для объема данных.
Вот несколько ссылок для размещения журналов Apache в MongoDB или Hadoop HDFS от Fluentd.