Как проверить наличие дубликатов в одном источнике с помощью ADF - PullRequest
0 голосов
/ 05 ноября 2019

У меня один CSV-источник с множеством повторяющихся строк. Я хочу выделить или удалить эти дубликаты. Кто-нибудь знает как?

Ответы [ 2 ]

2 голосов
/ 06 ноября 2019

Это возможно с потоками данных!

Это очень хорошо объяснено здесь великим Кромером: https://kromerbigdata.com/2019/04/21/use-adf-mapping-data-flows-for-fuzzy-matching-and-dedupe/

Надеюсь, это помогло!

0 голосов
/ 06 ноября 2019

Вы также найдете эти шаблоны в галерее шаблонов конвейера ADF. Просто зайдите в New Pipeline From Template в интерфейсе ADF в вашем браузере и найдите эти 2 шаблона потока данных:

Distrinct rows and dedupe

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...