Hadoop обычно используется в автономном режиме. Поэтому я бы предпочел периодически обрабатывать журналы.
В проекте, с которым я был связан ранее, мы заставили наши серверы создавать файлы журналов, которые менялись ежечасно (каждый час в x: 00). У нас был скрипт, который запускался ежечасно (каждый час в x: 30), загружал файлы в HDFS (те, которых там еще не было). Затем вы можете запускать задания так часто, как вам нужно, в Hadoop для обработки этих файлов.
Я уверен, что есть и лучшие альтернативы в реальном времени.