AWS Glue Crawler Невозможно классифицировать файлы CSV - PullRequest
0 голосов
/ 29 мая 2019

Я не могу получить классификатор сканера по умолчанию или пользовательский классификатор для работы со многими моими CSV-файлами.Классификация указана как «НЕИЗВЕСТНО».Я попытался перезапустить существующие классификаторы, а также создать новые.Кто-нибудь знает о конкретной конфигурации для пользовательского классификатора для файлов CSV, который работает для файлов любого размера?

Я также не могу найти какие-либо ошибки, специфичные для этой проблемы в журналах.

Хотя я видел ссылку на проблемы для файлов JSON размером более 1 МБ, я не могу найти ничего, детализирующего эту же проблему для файлов CSV, ни решения проблемы.

1 Ответ

0 голосов
/ 30 мая 2019

Классификаторы CSV по умолчанию, поддерживаемые сканером клея:

CSV - Проверяет следующие разделители: запятая (,), труба (|), табуляция (\ t), точка с запятой (;) и Ctrl-A (\ u0001). Ctrl-A - это Юникод управляющий символ для начала заголовка.

Если у вас есть какой-либо другой разделитель, он не будет работать с классификатором CSV по умолчанию. В этом случае вам придется написать шаблон Grok.

...