Question

У меня есть несколько тысяч табличных выдержек (CSV), хранящихся в корзине S3, которую мне нужно сканировать. Разделение не требуется, и каждая папка должна рассматриваться как отдельная таблица. Чтобы Glue не заставил разделять похожие таблицы, мне нужно включить каждую папку в отдельное хранилище данных.

Используя консоль, утомительно добавлять новые хранилища данных, поскольку вы должны делать их по одному, поэтому я использую Terraform для этого.

Пример:

resource "aws_glue_crawler" "multi_test" {
  database_name = "test"
  name          = "multi_test"
  role          = "${data.aws_iam_role.GlueServiceRole.arn}"

  s3_target {
    path = "s3://${aws_s3_bucket.test_bucket.bucket}/data_in/test/multi/table00001"
  }

  s3_target {
    path = "s3://${aws_s3_bucket.test_bucket.bucket}/data_in/test/multi/table00002"
  }

  ...

Я тестировал это до 250 образцов таблиц, но интересно, есть ли предел тому, сколько я могу добавить, в Terraform или AWS? Кто-нибудь пробовал это с 1000+ отдельными s3_targets / хранилищами данных?

Большое спасибо.

Mark

Существует ли максимальный предел хранилищ s3_targets / data, который можно добавить в AWS Glue Crawler с помощью Terraform?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Существует ли максимальный предел хранилищ s3_targets / data, который можно добавить в AWS Glue Crawler с помощью Terraform?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы