StreamSets Design of Ingestion - PullRequest
       11

StreamSets Design of Ingestion

0 голосов
/ 11 июня 2018

Уважаемые,

Я рассматриваю варианты правильного использования Streamsets в данной общей архитектуре Data Hub:

  • У меня есть несколько типов данных (csv, tsv, json, binary)из IOT), который должен быть захвачен CDC и сохранен в теме Kafka в формате «как есть», а затем передан в озеро данных HDFS как -is.
  • Затем из этой темы Kafka будет использован другой конвейер Streamsets.и преобразовать в общий формат (в зависимости от типа данных) в JSON, выполнить проверки, маскирование, метаданные и т. д. и сохранить в другой теме Kafka.
  • То же сообщение JSON будет сохранено в озере данных HDFS вФормат Avro для пакетной обработки.
  • Затем я буду использовать Spark Streaming, чтобы использовать те же сообщения JSON для обработки в реальном времени, предполагая, что все данные JSON готовы и могут быть дополнительно обогащены другими данными для масштабируемого сложного преобразования.

Я не использовал Streamsets для дальнейшей обработки и использования Spark Streaming для масштабируемого комплексапреобразования, которые не являются частью управления SLA (поскольку задания Spark не запускаются из потоковых наборов). Кроме того, я не смог использовать Kafka Registry с Avro в этом проекте для проверки схемы JSON, а схема JSON проверяется на основе пользовательской логики, встроенной в StreamSets, какJavascript.

Что можно сделать лучше в вышеприведенном дизайне?

Заранее спасибо ...

1 Ответ

0 голосов
/ 11 июля 2018

Ваш дизайн трубопровода выглядит хорошо.

Однако я бы рекомендовал объединить некоторые из этих шагов с помощью Striim.

  • Striim имеет встроенный CDC (сбор данных изменений) из всех перечисленных вами источников плюс базы данных
  • Он имеет встроенную интеграцию kafka, так что вы можете писать и читать из kafka в одном и том же конвейере
  • Striim также имеет встроенные кэши и операторы обработки для обогащения.Таким образом, вам не нужно писать код Spark для обогащения.Все делается с помощью нашего простого пользовательского интерфейса.

Вы можете попробовать это здесь:

https://striim.com/instant-download

Полное раскрытие: я - менеджер в Striim.

...