Предположим, что мы собираемся загрузить данные в улье, используя спарк с CSV-файлом (дата содержит 24 (10 записей), 25 (25 записей) и 26 (100 записей)).
Уже в улье у нас есть данные раздела для даты 24 (20 записей) и 25 (10 записей).
В спарк, если мы используем ключевое слово OVERWRITE, основанное на датах раздела, тогда все данные будут удалены на 24 и 25, и будут добавлены новые записи. Так что теперь у нас будет количество данных для даты 24 -> 20 записей и для даты 25 -> 20 записей.
Если мы не будем использовать ключевое слово OVERWRITE, то куст будет получать дубликаты (старые + новые) записи например, дата 24-> 30 записей, дата 25-> 35 записей.
какой подход мы можем использовать, чтобы только 26 данных go обрабатывалось.
Примечание: Поскольку каждый день транзакции происходят в ГБ, мы не будем проверять файл каждый день.