AWS Glue Crawler - неправильно подбирает столбец метки времени (всегда определяется как строка) - PullRequest
0 голосов
/ 15 апреля 2019

Я настроил сканер AWS Glue для индексирования набора CSV-файлов с пакетами в S3 (которые затем создают базу данных Athena).

Моя временная метка имеет формат "Java" - как определено в документации, пример;

2019-03-07 14:07:17.651795

Я пытался создать пользовательский классификатор (и новый сканер), но этот столбец сохраняетбыть обнаруженным как «строка», а не как «отметка времени».

Я в растерянности, почему Athena / Glue не обнаружит это как отметку времени ..

Ответы [ 2 ]

0 голосов
/ 16 апреля 2019

Вы пробовали "грубую силу" dyFrame.resolveChoice (specs = [('your_timestamp_string', 'cast: timestamp')])

0 голосов
/ 15 апреля 2019

Я думаю, что проблема может быть из-за доли секунды в отметке времени. Я нашел этот ответ StackOverflow , который содержит шаблоны, распознаваемые Glue как метки времени (но я не нашел, откуда взяты шаблоны, я не могу найти их в документации по Glue).

Возможно, вам повезет больше, если использовать пользовательский классификатор , чтобы он понял ваш формат отметки времени.

Я не знаю, насколько это вам поможет, так как вам также нужно убедить Афину разобрать ваши метки времени. Возможно, вам лучше позволить Glue классифицировать их как строки и создать представление, в котором вы используете DATE_PARSE для преобразования строк в метки времени.

...