AWS Glue Crawler создает таблицу для каждого файла - PullRequest
0 голосов
/ 21 сентября 2019

Я создал тестовый кластер Redshift и включил ведение журнала аудита в базе данных.Это создает журналы подключений, журналы пользователей и журналы активности пользователей (подробности о журналах доступны здесь ).Это создает журналы в корзине S3 в следующем месте:

s3://bucket_name/AWSLogs/123456789012/redshift/<region>/<year>/<month>/<date>/*_<log_type>_<timestamp>.gz

Затем я создал сканер клея и указал хранилище данных на s3://bucket_name/AWSLogs/123456789012/redshift и оставил оставшиеся опции в качестве значений по умолчанию.

Когда я запускаю Crawler, он создает отдельную таблицу для каждого элемента журнала.Вместо этого я ожидаю, что он создаст 3 таблицы (по одной для журнала пользователя, журнала активности пользователя и журнала подключений).

Ниже приведены некоторые вещи, которые я безуспешно пытался:

  • Обновленохранилище данных для указания префикса внутри контейнера, например s3://bucket_name/AWSLogs/123456789012/redshift/<region>.
  • Группировка: создайте единую схему для каждого пути S3
  • Параметры конфигурации: добавьте только новые столбцы

Я что-то здесь упускаю?Спасибо.

1 Ответ

2 голосов
/ 21 сентября 2019

Вы не можете хранить все 3 файла схемы в одной папке.Они должны находиться в отдельных папках, прежде чем запускать сканер в корневой папке

...