Мне удалось довольно легко настроить процесс SCD типа 2 с использованием интерфейса ADF для одной таблицы, НО я не вижу простого способа масштабирования до тысяч источников данных, которые у нас есть. Я не вижу никаких Java API, которые позволили бы мне писать ADF Pipelines / Dataflow и настраивать и динамически их запускать. Нет интерфейса, позволяющего выбирать таблицы из конкретной базы данных и т. Д. c. Я посмотрел на Azure Datalake Gen 2, Azure Databricks et c. В Azure я не вижу никакого инструмента, который позволил бы нам заменить встроенный в систему процесс приема данных, основанный на пользовательском интерфейсе. Я что-то упустил?
Кстати, у нас есть старое приложение озера данных, которое получает данные из тысяч источников данных, таких как базы данных, файлы журналов, веб-приложения и т. Д. c, и сохраняет данные в HDFS ( типичная архитектура) с использованием таких технологий, как Java, Spark, Kafka et c. Мы оцениваем Azure Active Data Factory, чтобы заменить его.