Мы получаем почасовые данные JSON в HDFS.Размер данных будет примерно 5-6 ГБ в час.
, когда найденная запись будет найдена в финальной таблице, затем Обновить (или) Удалить
если запись не соответствует окончательному набору данных, вставьте запись.
Мы испробовали опцию слияния Hive для случая USE.На обработку операции слияния в Hive уходит больше часа.Есть ли другой альтернативный подход для разрешения варианта использования. Так что, по сути, каждый день мы добавляем в улей 150 ГБ данных. Каждый день нам приходится сканировать 150 ГБ данных, чтобы определить, нужно ли нам обновлять / вставлять
* 1014.* Какой лучший способ сделать Upserts (Обновления и Вставки в Hadoop) для большого набора данных.Улей или HBase или Нифи.Что такое поток.