Как заставить AWS Glue Crawler с помощью пользовательского классификатора пропустить первую строку файла журнала? - PullRequest
0 голосов
/ 04 октября 2019

Я новичок в склеивании и пытаюсь заставить функцию-обходчик извлекать таблицы базы данных из некоторых файлов журналов. Проблема в том, что файлы имеют другую первую строку. Я определил пользовательский классификатор Grok, который работает хорошо, пока я удаляю первую строку, но когда я использую исходные файлы журнала, он перестает работать и использует классификатор клея по умолчанию (который, очевидно, не работает для меня). Я попытался добавить 'skip.header.line.count' = 1 к свойствам таблицы (и настроить сканер так, чтобы он не обновлял схему), но это тоже не работает. Есть ли способ написать «пропустить первую строку» в шаблоне grok?

...