Мы работаем над проектом, в котором мы используем HBase в качестве хранилища оперативных данных; все данные поступают на базу в режиме реального времени. И каждые 2 часа данные в Hbase необходимо синхронизировать с Hive. Это сделано для того, чтобы аналитические запросы выполнялись поверх последних данных.
Для синхронизации данных из Hbase в Hive:
Для сценариев только вставка / обновление , я могу использовать столбец отметки времени, предоставленный hbase, чтобы узнать вставленные / обновленные записи.
Для сценариев "УДАЛИТЬ" я изо всех сил пытаюсь найти правильный подход.
Предоставляет ли HBase Scan API какую-либо опцию для этого?
Или я должен пойти с какими-либо опциями SQL, такими как Apache Phoenix, для того же?