Как не получить дубликаты данных при загрузке данных в улей с помощью spark? - PullRequest
0 голосов
/ 26 февраля 2020

Предположим, что мы собираемся загрузить данные в улье, используя спарк с CSV-файлом (дата содержит 24 (10 записей), 25 (25 записей) и 26 (100 записей)).

Уже в улье у нас есть данные раздела для даты 24 (20 записей) и 25 (10 записей).

В спарк, если мы используем ключевое слово OVERWRITE, основанное на датах раздела, тогда все данные будут удалены на 24 и 25, и будут добавлены новые записи. Так что теперь у нас будет количество данных для даты 24 -> 20 записей и для даты 25 -> 20 записей.

Если мы не будем использовать ключевое слово OVERWRITE, то куст будет получать дубликаты (старые + новые) записи например, дата 24-> 30 записей, дата 25-> 35 записей.

какой подход мы можем использовать, чтобы только 26 данных go обрабатывалось.

Примечание: Поскольку каждый день транзакции происходят в ГБ, мы не будем проверять файл каждый день.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...