У меня есть корзина S3, которая имеет следующую структуру:
root/
├── year=2020/
│ └── month=01
│ ├── day=01
| | ├── file1.log
| | ├── ...
| | └── file8.log
│ ├── day=...
│ └── day=31
| ├── file1.log
| ├── ...
| └── file8.log
└── year=2019/
├── ...
Каждый день будет содержать 8 файлов с одинаковыми именами в разные дни - в каждой папке «день» будет file1.log
. Я просканировал это ведро с помощью пользовательского классификатора.
Ожидаемое поведение : Glue создаст одну таблицу с полем года, месяца и дня в качестве полей раздела, а также несколько других полей, которые я описал в своем пользовательском классификаторе. Затем я могу использовать таблицу в моих скриптах Job.
Фактическое поведение :
1) Клей создал одну таблицу, которая оправдала мои ожидания. Однако, когда я попытался получить к нему доступ в сценариях задания, в таблице не было столбцов.
2) Glue создал одну таблицу для каждых «дневных» разделов и 8 таблиц для каждого file<number>.log
файлов
Я пытался исключить **_SUCCESS
и **crc
, как люди, предложенные по этому другому вопросу: AWS Glue Crawler добавление таблиц для каждого раздела? Однако, похоже, это не работает. Я также проверил параметр «Создать одну схему для каждого пути S3» в настройках сканера. Это все еще не работает.
Что мне не хватает?