Могу ли я использовать AWS Glue для сканирования моего ведра S3 в этом формате? - PullRequest
0 голосов
/ 08 мая 2020

У меня есть корзина S3, и в ней есть папка для каждой даты, как показано на скриншоте ниже. В каждой папке с датами есть несколько файлов паркета. Я хочу создать таблицу в Athena, объединяющую все данные в ведре, поэтому она будет включать файлы из каждой папки / даты. Я пробовал создать краулер в AWS Glue, но моя таблица по какой-то причине не создается. Мне интересно, есть ли проблема с конфигурацией моего ведра S3? Я получаю данные от внешнего партнера, и они находятся в этой структуре папок, поэтому я бы предпочел сохранить их в этом формате, если это возможно.

enter image description here

1 Ответ

0 голосов
/ 09 мая 2020

Необходимо учитывать несколько моментов:

Имеет ли краулер правильные разрешения для корзины и каталога s3? Политика разрешений должна выглядеть примерно так:

  policy = <<EOF
{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "",
            "Effect": "Allow",
            "Action": "s3:*",
            "Resource": [
                "arn:aws:s3:::<S3_BUCKET>",
                "arn:aws:s3:::<S3_BUCKET>/*"
                ]
        },
        {
            "Sid": "",
            "Effect": "Allow",
            "Action": "logs:*",
            "Resource": "arn:aws:logs:*:*:log-group:*"
        },
        {
            "Sid": "",
            "Effect": "Allow",
            "Action": "glue:*",
            "Resource": "*"
        }
    ]
}
EOF

Еще одна вещь, которую нужно дважды проверить, - это то, имеют ли объекты S3 правильные разрешения ACL. Простой способ проверить это - открыть корзину S3 в пользовательском интерфейсе, выбрать объект и убедиться, что шифрование на стороне сервера не говорит: «Доступ запрещен».

...