Question

Мы получаем почасовые данные JSON в HDFS.Размер данных будет примерно 5-6 ГБ в час.

, когда найденная запись будет найдена в финальной таблице, затем Обновить (или) Удалить
если запись не соответствует окончательному набору данных, вставьте запись.

Мы испробовали опцию слияния Hive для случая USE.На обработку операции слияния в Hive уходит больше часа.Есть ли другой альтернативный подход для разрешения варианта использования. Так что, по сути, каждый день мы добавляем в улей 150 ГБ данных. Каждый день нам приходится сканировать 150 ГБ данных, чтобы определить, нужно ли нам обновлять / вставлять

* 1014.* Какой лучший способ сделать Upserts (Обновления и Вставки в Hadoop) для большого набора данных.Улей или HBase или Нифи.Что такое поток.

Saravanan Elumalai · Answer 1 · 26 августа 2018

Мы используем библиотеку Uber Hoodie для аналогичного варианта использования.Он использует библиотеку spark с разделом и индексом фильтра Блума для более быстрого слияния.Он поддерживает Hive и Presto.

DeltaStreamer Tool можно использовать для быстрой настройки и начального тестирования

Обновления и Вставки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обновления и Вставки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы