Клей Crawler не распознает метки времени - PullRequest
0 голосов
/ 07 апреля 2020

У меня есть JSON файлы в S3 Bucket, которые могут время от времени менять свою схему. Чтобы иметь возможность анализировать данные, которые я хочу периодически запускать сканером клея, анализ в Афине работает в целом.

Проблема: Моя строка метки времени не распознается как метка времени

Метки времени в настоящее время имеет следующий формат 2020-04-06T10:37:38+00:00, но я также пробовал другие, например 2020-04-06 10:37:38 - я могу управлять этим и могу настроить формат.

Предложение установить параметры serde может не работать для моего Приложение, я хочу, чтобы схема была полностью распознана и не нужно было определять каждое поле отдельно. (AWS Glue: Crawler не распознает столбцы меток времени в формате CSV ). Ручная корректировка в таблице, как правило, не требуется, я хотел бы автоматически развертывать Glue в стеке CloudFormation.

У вас есть идея, что еще я могу попробовать?

1 Ответ

0 голосов
/ 07 апреля 2020

Это очень распространенная проблема. То, как мы обошли проблему при чтении текстовых / json файлов, заключается в том, что у нас был дополнительный шаг между приведением и установкой правильных типов данных. Типы данных сканера иногда немного сомнительны и основаны на выборке данных, доступной на тот момент

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...