Гусеничный сканер создал несколько таблиц из многораздельной корзины S3 - PullRequest
0 голосов
/ 14 января 2020

У меня есть корзина S3, которая имеет следующую структуру:

root/
├── year=2020/
│   └── month=01
│       ├── day=01 
|       |     ├──  file1.log
|       |     ├──  ...
|       |     └──  file8.log
│       ├── day=...
│       └── day=31 
|             ├──  file1.log
|             ├──  ...
|             └──  file8.log
└── year=2019/
        ├── ...

Каждый день будет содержать 8 файлов с одинаковыми именами в разные дни - в каждой папке «день» будет file1.log. Я просканировал это ведро с помощью пользовательского классификатора.

Ожидаемое поведение : Glue создаст одну таблицу с полем года, месяца и дня в качестве полей раздела, а также несколько других полей, которые я описал в своем пользовательском классификаторе. Затем я могу использовать таблицу в моих скриптах Job.

Фактическое поведение :

1) Клей создал одну таблицу, которая оправдала мои ожидания. Однако, когда я попытался получить к нему доступ в сценариях задания, в таблице не было столбцов.

2) Glue создал одну таблицу для каждых «дневных» разделов и 8 таблиц для каждого file<number>.log файлов

Я пытался исключить **_SUCCESS и **crc, как люди, предложенные по этому другому вопросу: AWS Glue Crawler добавление таблиц для каждого раздела? Однако, похоже, это не работает. Я также проверил параметр «Создать одну схему для каждого пути S3» в настройках сканера. Это все еще не работает.

Что мне не хватает?

1 Ответ

0 голосов
/ 16 января 2020

У вас должна быть одна папка на root (например, клиенты), а внутри нее у вас должны быть подпапки разделов. Если у вас есть разделы на уровне S3, он не создаст одну таблицу.

...