Question

Я создал тестовый кластер Redshift и включил ведение журнала аудита в базе данных.Это создает журналы подключений, журналы пользователей и журналы активности пользователей (подробности о журналах доступны здесь ).Это создает журналы в корзине S3 в следующем месте:

s3://bucket_name/AWSLogs/123456789012/redshift/<region>/<year>/<month>/<date>/*_<log_type>_<timestamp>.gz

Затем я создал сканер клея и указал хранилище данных на s3://bucket_name/AWSLogs/123456789012/redshift и оставил оставшиеся опции в качестве значений по умолчанию.

Когда я запускаю Crawler, он создает отдельную таблицу для каждого элемента журнала.Вместо этого я ожидаю, что он создаст 3 таблицы (по одной для журнала пользователя, журнала активности пользователя и журнала подключений).

Ниже приведены некоторые вещи, которые я безуспешно пытался:

Обновленохранилище данных для указания префикса внутри контейнера, например s3://bucket_name/AWSLogs/123456789012/redshift/<region>.
Группировка: создайте единую схему для каждого пути S3
Параметры конфигурации: добавьте только новые столбцы

Я что-то здесь упускаю?Спасибо.

Sandeep Fatangare · Answer 1 · 21 сентября 2019

Вы не можете хранить все 3 файла схемы в одной папке.Они должны находиться в отдельных папках, прежде чем запускать сканер в корневой папке

AWS Glue Crawler создает таблицу для каждого файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

AWS Glue Crawler создает таблицу для каждого файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы