Grok классификатор для паркета - PullRequest
0 голосов
/ 31 декабря 2018

Можно ли создать классификатор Грока для файлов паркета?Если да, где я могу найти примеры?

Я использую AWS Glue Catalog и пытаюсь создать внешние таблицы поверх файлов Parquet.Я бы хотел, чтобы классификатор разделял файлы в соответствии с одним из столбцов файлов.

Все мои файлы имеют столбец "таблица", а все записи в файле имеют одну и ту же таблицу.

Моя структура S3 выглядит так

- s3://my-bucket/my-prefix/table1/...
- s3://my-bucket/my-prefix/table2/...

1 Ответ

0 голосов
/ 02 января 2019

Нет, классификатор не используется для условного анализа данных и перемещения в разные таблицы.

Вы можете написать lambda / ecs / glue-job (в зависимости от времени обработки), который возьмет эти файлы и переместится впапки с таблицами в ведре s3.например, s3-data-lake / ingestion / table1, s3-data-lake / ingestion / table2 и так далее.Затем вы можете запустить сканер через s3-data-lake / ingestion /, который создаст все таблицы склеивания.

...