Перезагрузите определенные файлы на внешнем этапе - PullRequest
0 голосов
/ 01 ноября 2019

Я загружаю файлы CSV из S3 в таблицу в виде снежинки, используя COPY INTO. Таблица усекается при каждом запуске процесса (данные сохраняются в последующей промежуточной таблице). В случае завершения COPY INTO, но сбоя задания перед загрузкой в ​​постоянную промежуточную таблицу, записи теряются при следующей загрузке, а команда COPY INTO игнорирует загруженные файлы.

Наш процесс архивирования применяется к файлам старше 1 дня, поэтому я не могу временно переключиться на принудительную загрузку, так как будут загружены ненужные файлы.

Сокращение вручную до просто отсутствующих файлов не является идеальным, поскольку у нас есть более 100 таблиц, которые разделены по имени таблицы в S3.

Кто-нибудь может предложить другие подходы?

1 Ответ

1 голос
/ 01 ноября 2019

Я хотел бы рассмотреть возможность изменения вашего процесса, чтобы одновременно копировать файлы в промежуточную папку, а также в вашу папку архива, а затем использовать команду PURGE в вашем COPY INTO. Таким образом, файлы с ошибками останутся для следующего запуска, и у вас все еще будет полный архив.

...