AWS Glue Crawler дает разные результаты для разных учетных записей с одинаковыми файлами - PullRequest
0 голосов
/ 25 марта 2019

У нас есть набор JSON, которые мы хотели бы сканировать. Для удобства была настроена фиктивная среда для тестирования со всеми разрешениями доступа. Конфигурация для искателя была настроена в этой учетной записи для сканирования набора JSON и получения правильных результатов. Два JSON в одном каталоге в S3 с одинаковой схемой помещаются в одну таблицу.

Проблема возникает, когда мы пытаемся сделать это в производственном аккаунте. Искатели имеют одинаковую конфигурацию, а искатель производственной учетной записи имеет все необходимые разрешения в S3 и Glue, которые необходимы. Папки настроены в S3 одинаково, только с двумя JSON в одном каталоге. По какой-либо причине сканер в производственной учетной записи выдает 2 таблицы вместо одной, но обе таблицы имеют одинаковую схему.

Мы пытались связываться с фиктивным сканером учетных записей, чтобы сломать его, чтобы получить тот же результат, что и для производственной учетной записи, просто для того, чтобы изолировать проблему, но безрезультатно.

Я бы хотел, чтобы все производственные сканеры вели себя так же, как и фиктивные учетные записи. Моя единственная мысль о том, что может быть причиной, может быть, это отсутствие одной части разрешения в S3, но его чтение файлов правильно и получение той же схемы, так что я сомневаюсь в этом. Спасибо за любую помощь

...