У меня один CSV-источник с множеством повторяющихся строк. Я хочу выделить или удалить эти дубликаты. Кто-нибудь знает как?
Это возможно с потоками данных!
Это очень хорошо объяснено здесь великим Кромером: https://kromerbigdata.com/2019/04/21/use-adf-mapping-data-flows-for-fuzzy-matching-and-dedupe/
Надеюсь, это помогло!
Вы также найдете эти шаблоны в галерее шаблонов конвейера ADF. Просто зайдите в New Pipeline From Template в интерфейсе ADF в вашем браузере и найдите эти 2 шаблона потока данных: