Hadoop - это подход «записи на чтение и много» (WORM), а добавочная загрузка - непростая задача.Ниже приведены рекомендации, которым вы можете следовать и подтвердить свои текущие требования
- Если таблица небольшого / среднего размера и не имеет слишком много записей, лучше обновить всю таблицу
- Если таблица слишком большая и при добавочной загрузке выполняется операция добавления / обновления / удаления, вы можете подумать о том, чтобы подготовить дельту и выполнить операцию соединения, чтобы заново создать набор данных.
- Для большой таблицы и большой дельты выМожно создать номер версии для всех последних записей, и каждая дельта может прийти в новый каталог, и необходимо создать представление, чтобы получить последнюю версию для дальнейшей обработки.Это позволяет избежать операции слияния.
Если операция удаления не является изменением, вам также необходимо подумать, как с ней работать, и в этом случае вам необходимо получить полное обновление.