Мы используем S3 Connect для сотен тем и обрабатываем данные, используя Hive, Athena, Spark, Presto и т. Д. Кажется, все работает нормально, хотя я чувствую, что реальная база данных может возвращать результаты быстрее.
В любом случае, чтобы ответить о Connect
Могу ли я подключиться к своему кластеру Kafka из другого экземпляра Kafka и запустить автономно мой Kafka Connector s3?
Я не уверен, что понимаю вопрос, но Kafka Connect необходимо подключиться к одному кластеру, вам не нужны два кластера Kafka, чтобы использовать его.Обычно вы запускаете процессы Kafka Connect как часть их собственного кластера, а не посредников.
Что означает эта ошибка «Ошибка задачи s3-sink-0 вызвала необнаруженное неисправимое исключение»?
Это означает, что вам нужно просмотреть журналы, чтобы выяснить,какое исключение выбрасывается и мешает соединителю читать данные.
WARN could not create Dir using directory from url file:/targ
... Если вы используете разъем HDFS, я не думаю, что вы должны использовать файл по умолчанию: // URI
Если вы можете возобновитьшаги для подключения к Kafka и продолжения s3 с другого экземпляра Kafka, как вы будете это делать?
Вы не можете "возобновить работу с другого экземпляра Kafka".Как уже упоминалось, Connect может использовать только один кластер Kafka, и любые использованные смещения и группы потребителей сохраняются вместе с ним.
Что означают все эти поля
Эти поля удалены из последних выпусков Kafka, их можно игнорировать.Вам определенно не следует менять их
internal.key.converter,internal.value.converter, internal.key.converter.schemas.enable, internal.value.converter.schemas.enable
Это ваши сериализаторы и десериализаторы, как у обычного API-интерфейса для производителей
key.converter, value.converter
Iсчитаю, что это важно только для JSON-конвертеров.См. https://rmoff.net/2017/09/06/kafka-connect-jsondeserializer-with-schemas-enable-requires-schema-and-payload-fields
key.converter.schemas.enable, value.converter.schemas.enable
, чтобы десериализовать Protobuf, изменить формат некоторых полей и, наконец, сохранить его в другом контейнере в Parquet
Kafka Connect должен быть загружен конвертером Protobuf, и я не знаю, есть ли он (я думаю, что Blue Apron что-то написал ... Search github).
Вообще говоря, Avro будетгораздо проще конвертировать в паркет, потому что для этого уже существуют нативные библиотеки.S3 Connect by Confluent в настоящее время не пишет формат Паркет, но существует в открытом PR.Альтернативой является использование библиотеки Pinterest Secor .
Я не знаю Glue, но если это похоже на Hive, вы будете использовать ADD JAR
во время запроса для загрузки внешних плагинов и функций кода
У меня минимальный опыт работы с Athena, но Glueподдерживает все разделы в качестве метастафа Hive.Автоматическая часть была бы сканером, вы можете поставить фильтр на запрос, чтобы сделать сокращение раздела