Запись большого количества небольших файлов непосредственно в HDFS может иметь некоторые нежелательные эффекты, так как это влияет на использование памяти главного узла и может привести к более низкой скорости обработки по сравнению с пакетной обработкой.
Любой из ваших датчиков будет генерировать 500 тыс. Файлов в месяц, поэтому, если у вас нет очень ограниченного количества датчиков, я бы посоветовал вам взглянуть на брокеры сообщений.Apache Kafka (https://kafka.apache.org/) хорошо известен и уже входит в состав некоторых дистрибутивов Hadoop. Вы можете использовать его для «постановки» ваших данных и обработки, например, в (мини) пакетах.
Наконец, если вам нужно обрабатывать входящие данные в режиме реального времени (CEP и т. Д.), Я бы рекомендовал обратить внимание на Spark Streaming (https://spark.apache.org/streaming/) технология.