Я создал тестовый кластер Redshift и включил ведение журнала аудита в базе данных.Это создает журналы подключений, журналы пользователей и журналы активности пользователей (подробности о журналах доступны здесь ).Это создает журналы в корзине S3 в следующем месте:
s3://bucket_name/AWSLogs/123456789012/redshift/<region>/<year>/<month>/<date>/*_<log_type>_<timestamp>.gz
Затем я создал сканер клея и указал хранилище данных на s3://bucket_name/AWSLogs/123456789012/redshift
и оставил оставшиеся опции в качестве значений по умолчанию.
Когда я запускаю Crawler, он создает отдельную таблицу для каждого элемента журнала.Вместо этого я ожидаю, что он создаст 3 таблицы (по одной для журнала пользователя, журнала активности пользователя и журнала подключений).
Ниже приведены некоторые вещи, которые я безуспешно пытался:
- Обновленохранилище данных для указания префикса внутри контейнера, например
s3://bucket_name/AWSLogs/123456789012/redshift/<region>
. - Группировка: создайте единую схему для каждого пути S3
- Параметры конфигурации: добавьте только новые столбцы
Я что-то здесь упускаю?Спасибо.