Инкрементальная нагрузка Sqoop с использованием Informatica BDM - PullRequest
0 голосов
/ 20 декабря 2018

Я новичок в Informatica BDM. У меня есть сценарий использования, в котором я должен импортировать данные постепенно (100 таблиц) из RDBMS в Hive ежедневно.Может кто-нибудь, пожалуйста, наставить меня наилучшим подходом для достижения этой цели?

Спасибо, Сумит

1 Ответ

0 голосов
/ 22 декабря 2018

Hadoop - это подход «записи на чтение и много» (WORM), а добавочная загрузка - непростая задача.Ниже приведены рекомендации, которым вы можете следовать и подтвердить свои текущие требования

  1. Если таблица небольшого / среднего размера и не имеет слишком много записей, лучше обновить всю таблицу
  2. Если таблица слишком большая и при добавочной загрузке выполняется операция добавления / обновления / удаления, вы можете подумать о том, чтобы подготовить дельту и выполнить операцию соединения, чтобы заново создать набор данных.
  3. Для большой таблицы и большой дельты выМожно создать номер версии для всех последних записей, и каждая дельта может прийти в новый каталог, и необходимо создать представление, чтобы получить последнюю версию для дальнейшей обработки.Это позволяет избежать операции слияния.

Если операция удаления не является изменением, вам также необходимо подумать, как с ней работать, и в этом случае вам необходимо получить полное обновление.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...