Я работаю над написанием задания Spark, которое считывает данные из Hive и сохраняет их в HBase для доступа в реальном времени.Исполнитель устанавливает связь с HBase, что является правильным подходом для вставки данных.Я подумал о следующих двух подходах.
Какой из них более уместен или есть какой-то другой подход?
- Запись данных напрямую из Spark Job в Hbase
- Запись данных из Spark в HDFS и последующее перемещениеэто к Hbase