амазонка Афина и реестр схем слияния - PullRequest
0 голосов
/ 17 ноября 2018

Мы планируем выгрузить события с Kafka на S3 (например, с помощью kafka connect). Цель состоит в том, чтобы раскрутить службу (например, как Amazon Athena) и предоставить интерфейс запросов поверх экспортированных событий avro. Препятствием является то, что amazon Athena avro SerDe (использует org.apache.hadoop.hive.serde2.avro.AvroSerDe) не поддерживает магические байты, которые реестр реестра использует для хранения идентификатора схемы. Знаете ли вы какие-либо альтернативы, которые могут играть хорошо с реестром схемы слияния?

Спасибо!

1 Ответ

0 голосов
/ 17 ноября 2018

При использовании S3 Connect AvroConverter не помещает никакой идентификатор схемы в файл.Фактически, после написания сообщения вы полностью теряете идентификатор схемы.

У нас есть множество таблиц Hive, которые отлично работают с этими файлами, и пользователи запрашивают с помощью Athena, Presto.SparkSQL и т. Д.

Примечание. Если вы хотите использовать AWS Glue, S3 Connect (в настоящее время, начиная с 5.x) не предлагает автоматическое создание раздела Hive, как HDFS Connector, так что вы можете захотеть посмотретьдля альтернатив, если вы хотите использовать его таким образом.

...