Question

Я создаю конвейер данных для копирования данных из одного файла в другой. Мой входной файл имеет 4 столбца, а мой выходной файл имеет 2 столбца. Я хочу скопировать только столбец 1 и 3 входного файла и сохранить его в выходном файле. Как только это скопировано, я хочу удалить дубликаты из выходного файла. Но я не могу использовать Dataflow или Databricks или Azure аналитику данных, потому что в моей установке нет вычислений. Есть ли способ сделать это без использования вычислений?

Mark Kromer · Answer 1 · 24 апреля 2020

Вам нужна вычислительная среда для дедупликации. В галерее конвейеров ADF есть готовые шаблоны для отдельных строк и дедупликации.

HimanshuSinha-msft · Answer 2 · 24 апреля 2020

У нас есть два запроса,

Копировать выбранные столбцы: Мы можем сделать это и выбрать два столбца, которые будут скопированы в «отображение». Это возможно.

2. Удаление дубликатов: я думаю, что это преобразование, и в настоящее время это невозможно.

Если вы хотите использовать Azure аналитика озера данных (ADLA), я думаю, вы можете достичь этого с помощью U SQL.

https://docs.microsoft.com/en-us/azure/data-factory/transform-data-using-data-lake-analytics

Как удалить дубликаты в файле с помощью Azure фабрики данных без использования Dataflow или Databricks или Azure аналитика данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как удалить дубликаты в файле с помощью Azure фабрики данных без использования Dataflow или Databricks или Azure аналитика данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы