Как удалить дубликаты в файле с помощью Azure фабрики данных без использования Dataflow или Databricks или Azure аналитика данных - PullRequest
0 голосов
/ 23 апреля 2020

Я создаю конвейер данных для копирования данных из одного файла в другой. Мой входной файл имеет 4 столбца, а мой выходной файл имеет 2 столбца. Я хочу скопировать только столбец 1 и 3 входного файла и сохранить его в выходном файле. Как только это скопировано, я хочу удалить дубликаты из выходного файла. Но я не могу использовать Dataflow или Databricks или Azure аналитику данных, потому что в моей установке нет вычислений. Есть ли способ сделать это без использования вычислений?

Ответы [ 2 ]

1 голос
/ 24 апреля 2020

Вам нужна вычислительная среда для дедупликации. В галерее конвейеров ADF есть готовые шаблоны для отдельных строк и дедупликации.

0 голосов
/ 24 апреля 2020

У нас есть два запроса,

  1. Копировать выбранные столбцы: Мы можем сделать это и выбрать два столбца, которые будут скопированы в «отображение». Это возможно.

2. Удаление дубликатов: я думаю, что это преобразование, и в настоящее время это невозможно.

Если вы хотите использовать Azure аналитика озера данных (ADLA), я думаю, вы можете достичь этого с помощью U SQL.

https://docs.microsoft.com/en-us/azure/data-factory/transform-data-using-data-lake-analytics

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...