Склейка пользовательских классификаторов для CSV с нестандартным разделителем - PullRequest
0 голосов
/ 12 ноября 2018

Я пытаюсь использовать AWS Glue для сканирования набора данных и сделать его доступным для запросов в Афине.Мой набор данных представляет собой текстовый файл с разделителями, использующий ^ для разделения столбцов.Glue не может вывести схему для этих данных, поскольку классификатор CSV распознает только запятую (,), pipe (|), символ табуляции (\ t), точку с запятой (;) и Ctrl-A (\ u0001).Есть ли способ обновить этот классификатор для включения нестандартных разделителей?Возможность создания пользовательских классификаторов поддерживает только Grok, JSON или XML, которые в данном случае неприменимы.

1 Ответ

0 голосов
/ 14 ноября 2018

Вам нужно будет создать собственный классификатор, используя пользовательский шаблон Grok, и использовать его в сканере. Предположим, что ваши данные, как показано ниже, с четырьмя полями:

qwe^123^22.3^2019-09-02

Для обработки вышеуказанных данных ваш пользовательский шаблон будет выглядеть следующим образом:

%{NOTSPACE:name}^%{INT:class_num}^%{BASE10NUM:balance}^%{CUSTOMDATE:balance_date}

Пожалуйста, дайте мне знать, если это сработало для вас.

...