AWS Glue Crawler не добавляет данные - PullRequest
0 голосов
/ 04 ноября 2019

Я создал сканер aws, который использует классификатор для импорта CSV-файлов в таблицу данных. Что работает нормально.

Проблема: каждый раз, когда сканер перезаписывает старые данные. Я хочу сохранить предыдущие данные и добавить новый контент в файлы CSV.

т.е. я загрузил файл CSV с 250 записями. И когда я выполняю этот сканер, он заполняет таблицу 250 строками.

Теперь, если я заменю этот CSV-файл другим содержимым, он перезапишет старые 250 строк и заполнит таблицу только самыми последними данными.

Может кто-нибудь, пожалуйста, помогите мне, как я могу сохранить старые записи и добавить новые данные.

Спасибо,

1 Ответ

0 голосов
/ 04 ноября 2019

Сканер клея не заполняет таблицу строками / записями. Он просто определяет метаинформацию о ваших данных, то есть определяет схему таблицы и расположение этих файлов на S3 (или других ресурсах) и т. Д. Это означает, что вам нужно сохранить оба файла на S3, если вы хотите сохранить старые записи.

Обратите внимание , что если вы храните новые файлы в той же «папке» на S3, что и старые, вам не нужно повторно запускать сканер, так как информация требуется для запроса этих файлов (например, с помощьюАфина) уже была определена.

...