Краткое описание проблемы:
У меня есть случайный случай использования для записи> 10 ГБ данных в день в HDFS через потоковую передачу искры. В настоящее время мы находимся в стадии проектирования. Мы хотим записать данные в HDFS (ограничение), используя потоковую передачу. Данные столбчатые.
У нас есть 2 варианта (пока):
Естественно, я хотел бы использовать контекст улья для подачи данных в HDFS. Схема определена, и данные передаются партиями или по строкам.
Есть еще один вариант. Мы можем напрямую записывать данные в HDFS благодаря API Streaming Streaming. Мы также рассматриваем это, потому что мы можем запрашивать данные из HDFS через куст, тогда в этом сценарии использования. Это оставит открытыми варианты использования других технологий в будущем для новых вариантов использования.
Что лучше?
Spark Streaming -> Hive -> HDFS -> Используется Hive.
VS
Spark Streaming -> HDFS -> Используется Hive или другими технологиями.
Спасибо.
Пока я не нашел обсуждения по этой теме, мое исследование может быть коротким. Если есть какая-нибудь статья, которую вы можете предложить, я был бы очень рад ее прочитать.