Хранение данных с датчиков в hdfs - PullRequest
0 голосов
/ 27 февраля 2019

Я работаю над проектом, который предполагает использование HDFS для хранения и Spark для вычислений.

Мне нужно хранить данные с датчиков в HDFS в режиме реального времени.

Например, у меня есть метеостанция, где датчик генерирует данные (изменение температуры) каждые 5 секунд,Я хотел бы знать, как хранить эти данные в формате hdf в режиме реального времени

1 Ответ

0 голосов
/ 27 февраля 2019

Запись большого количества небольших файлов непосредственно в HDFS может иметь некоторые нежелательные эффекты, так как это влияет на использование памяти главного узла и может привести к более низкой скорости обработки по сравнению с пакетной обработкой.

Любой из ваших датчиков будет генерировать 500 тыс. Файлов в месяц, поэтому, если у вас нет очень ограниченного количества датчиков, я бы посоветовал вам взглянуть на брокеры сообщений.Apache Kafka (https://kafka.apache.org/) хорошо известен и уже входит в состав некоторых дистрибутивов Hadoop. Вы можете использовать его для «постановки» ваших данных и обработки, например, в (мини) пакетах.

Наконец, если вам нужно обрабатывать входящие данные в режиме реального времени (CEP и т. Д.), Я бы рекомендовал обратить внимание на Spark Streaming (https://spark.apache.org/streaming/) технология.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...