Сканер создает таблицу со странным суффиксом к имени - PullRequest
0 голосов
/ 04 августа 2020

У нас есть сценарий ETL, который читает каталог формы данных и записывает в s3 как паркет. Мы также вызываем краулер для создания / обновления таблиц в Athena. Тем не менее, он создает таблицу, но добавляет какой-то странный суффикс к имени таблицы.

Все файлы в папке, которую я просматриваю, находятся на паркете с той же схемой. Также это происходит только тогда, когда мы вызываем краулер из сценария ETL.

Сценарий, который мы использовали для вызова краулера

glue_client = boto3.client("glue", region_name=args.get("aws_region"))
glue_client.start_crawler(Name=args["crawler_name"])

Ожидаемое: имя_таблицы Фактическое: имя_таблицы_31e198c8c61861f127ae06487eb14a3f

1 Ответ

1 голос
/ 04 августа 2020

Это происходит, когда поисковый робот Glue обнаруживает повторяющееся имя таблицы в каталоге данных Glue. Обратитесь к этому do c, в котором говорится об этом поведении:

Если встречаются повторяющиеся имена таблиц, поисковый робот добавляет строковый суффикс ha sh к имя.

...