Существует ли лучшая практика для нескольких параллельных импортов, которые имеют общие измерения? - PullRequest
0 голосов
/ 26 марта 2019

Проблема, с которой мы сталкиваемся, заключается в том, что в данный момент мы имеем 2 импорта DWH из 2 источников.Оба источника предоставляют нам устройства с уникальными идентификаторами.Если бы у нас был только 1 импорт, он проверил бы, какие устройства уже были импортированы, и скопировал бы только новые из источника в DWH.Но теперь, когда у нас есть 2 импорта, которые выполняются параллельно, может случиться так, что мы получим дубликаты в DWH, потому что оба импорта проверяют только то, что они хотят импортировать, только для уже импортированных устройств, а не друг с другом.

Мы используем хранилище данных SQL Azure, блоки данных Azure и фабрику данных Azure.Мы копируем данные измерения устройства из блоков данных в промежуточную таблицу в DWH, а затем используем хранимую процедуру для добавления данных в реальную таблицу.

Я ожидаю, что передовая практика позволит нам иметь множественный параллельный импорти ETL обрабатывает, но в итоге нет дублированных данных в DWH.

...