Question

Уважаемые,

Я рассматриваю варианты правильного использования Streamsets в данной общей архитектуре Data Hub:

У меня есть несколько типов данных (csv, tsv, json, binary)из IOT), который должен быть захвачен CDC и сохранен в теме Kafka в формате «как есть», а затем передан в озеро данных HDFS как -is.
Затем из этой темы Kafka будет использован другой конвейер Streamsets.и преобразовать в общий формат (в зависимости от типа данных) в JSON, выполнить проверки, маскирование, метаданные и т. д. и сохранить в другой теме Kafka.
То же сообщение JSON будет сохранено в озере данных HDFS вФормат Avro для пакетной обработки.
Затем я буду использовать Spark Streaming, чтобы использовать те же сообщения JSON для обработки в реальном времени, предполагая, что все данные JSON готовы и могут быть дополнительно обогащены другими данными для масштабируемого сложного преобразования.

Я не использовал Streamsets для дальнейшей обработки и использования Spark Streaming для масштабируемого комплексапреобразования, которые не являются частью управления SLA (поскольку задания Spark не запускаются из потоковых наборов). Кроме того, я не смог использовать Kafka Registry с Avro в этом проекте для проверки схемы JSON, а схема JSON проверяется на основе пользовательской логики, встроенной в StreamSets, какJavascript.

Что можно сделать лучше в вышеприведенном дизайне?

Заранее спасибо ...

capkutay · Answer 1 · 11 июля 2018

Ваш дизайн трубопровода выглядит хорошо.

Однако я бы рекомендовал объединить некоторые из этих шагов с помощью Striim.

Striim имеет встроенный CDC (сбор данных изменений) из всех перечисленных вами источников плюс базы данных
Он имеет встроенную интеграцию kafka, так что вы можете писать и читать из kafka в одном и том же конвейере
Striim также имеет встроенные кэши и операторы обработки для обогащения.Таким образом, вам не нужно писать код Spark для обогащения.Все делается с помощью нашего простого пользовательского интерфейса.

Вы можете попробовать это здесь:

https://striim.com/instant-download

Полное раскрытие: я - менеджер в Striim.

StreamSets Design of Ingestion

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

StreamSets Design of Ingestion

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы