Обновления и Вставки - PullRequest
       26

Обновления и Вставки

0 голосов
/ 25 августа 2018

Мы получаем почасовые данные JSON в HDFS.Размер данных будет примерно 5-6 ГБ в час.

  • , когда найденная запись будет найдена в финальной таблице, затем Обновить (или) Удалить

  • если запись не соответствует окончательному набору данных, вставьте запись.

Мы испробовали опцию слияния Hive для случая USE.На обработку операции слияния в Hive уходит больше часа.Есть ли другой альтернативный подход для разрешения варианта использования. Так что, по сути, каждый день мы добавляем в улей 150 ГБ данных. Каждый день нам приходится сканировать 150 ГБ данных, чтобы определить, нужно ли нам обновлять / вставлять

* 1014.* Какой лучший способ сделать Upserts (Обновления и Вставки в Hadoop) для большого набора данных.Улей или HBase или Нифи.Что такое поток.

1 Ответ

0 голосов
/ 26 августа 2018

Мы используем библиотеку Uber Hoodie для аналогичного варианта использования.Он использует библиотеку spark с разделом и индексом фильтра Блума для более быстрого слияния.Он поддерживает Hive и Presto.

DeltaStreamer Tool можно использовать для быстрой настройки и начального тестирования

...