У меня есть куча действий U-SQL, которые манипулируют и преобразуют данные в Azure Data Lake
.Из этого я получаю csv
файл, который содержит все мои события.
Далее я бы просто использовал действие Copy Data
, чтобы скопировать файл csv
из озера данных непосредственно в таблицу Azure SQL Data Warehouse
.
![Extract-Transform-Merge-Load](https://i.stack.imgur.com/rabOH.png)
- Я извлекаю информацию из набора файлов
JSON
, хранящихся в озере данных, и создаю промежуточный файл .csv
; - Я беру промежуточный файл
.csv
и рабочий файл .csv
, внедряю последние изменения (и избегаю дубликатов) и сохраняю рабочий файл .csv
; - Копируем
.csv
рабочий файл непосредственно к таблице Warehouse.
Я понял, что моя таблица содержит дублированные строки, и, после тестирования сценариев U-SQL
, я предполагаю, что действие Copy Data
, как-то, объединяетсодержимое файла csv
в таблицу.
Вопрос
Я не уверен, что я поступаю правильно.Должен ли я определить свою таблицу хранилища как таблицу EXTERNAL , которая будет получать данные из рабочего файла .csv
?Или я должен изменить свой U-SQL, чтобы включить только последние изменения?