У меня есть несколько тысяч табличных выдержек (CSV), хранящихся в корзине S3, которую мне нужно сканировать. Разделение не требуется, и каждая папка должна рассматриваться как отдельная таблица. Чтобы Glue не заставил разделять похожие таблицы, мне нужно включить каждую папку в отдельное хранилище данных.
Используя консоль, утомительно добавлять новые хранилища данных, поскольку вы должны делать их по одному, поэтому я использую Terraform для этого.
Пример:
resource "aws_glue_crawler" "multi_test" {
database_name = "test"
name = "multi_test"
role = "${data.aws_iam_role.GlueServiceRole.arn}"
s3_target {
path = "s3://${aws_s3_bucket.test_bucket.bucket}/data_in/test/multi/table00001"
}
s3_target {
path = "s3://${aws_s3_bucket.test_bucket.bucket}/data_in/test/multi/table00002"
}
...
Я тестировал это до 250 образцов таблиц, но интересно, есть ли предел тому, сколько я могу добавить, в Terraform или AWS? Кто-нибудь пробовал это с 1000+ отдельными s3_targets / хранилищами данных?
Большое спасибо.
Mark