Извлечь отличительную запись в SSIS - PullRequest
2 голосов
/ 28 марта 2011

Я пишу пакет служб SSIS для импорта данных из файлов * .csv в базу данных SQL 2008. Проблема в том, что один из файлов содержит дубликаты записей в файле CSV, и я хочу извлечь только отдельные значения из этого источника. Пожалуйста, смотрите изображение ниже.

Duplicate

К сожалению, сгенерированные файлы не находятся под моим контролем и принадлежат третьей стороне, и я не мог изменить способ их создания.

Я использовал компонент LookUp. Но это только проверяет существующие данные с входящими данными. Он не проверяет дубликаты записей во входящих данных.

Ответы [ 5 ]

9 голосов
/ 28 марта 2011

Я полагаю, что компонент сортировки позволяет удалить повторяющиеся строки.

4 голосов
/ 28 марта 2011

Зависит от того, насколько серьезно вы хотите узнать о дубликатах.Вам нужна запись о том, что было продублировано, или этого достаточно, чтобы просто избавиться от них?Компонент сортировки избавит от дублирования на поле сортировки.Однако у дупсов могут быть разные данные в других полях, и тогда вам нужна другая стратегия.Обычно я загружаю все в промежуточные столы и убираю оттуда.Я отправляю удаленные дубликаты в таблицу исключений (мы должны ответить на множество вопросов наших клиентов о том, почему вещи не соответствуют отправленным), и я часто использую набор бизнес-правил (и использую SQl или данные исполнениявыполнять задачи для обеспечения соблюдения правил), чтобы определить, какой из них выбрать, если в одной области есть дубликаты, но нет другой (скажем, два рабочих адреса, когда мы можем хранить только 1).Я также проверяю, знает ли клиент, как мы определяем, какой из двух вариантов выбрать.

1 голос
/ 15 июля 2014

Используйте инструмент SORT для этого из Toolbox, затем щелкните по нему. Вы получите все доступные входные столбцы. Проверьте столбец и измените направление sortType, а затем отметьте «удалить строки с повторяющимся значением сортировки».

0 голосов
/ 29 марта 2011

Я использовал агрегатный компонент и группу по QualificationID и UnitID. Если вы хотите, вы также можете использовать компонент сортировки. Возможно, моя информация может помочь другим.

0 голосов
/ 28 марта 2011

Введите данные из CSV-файла такими, какие они есть, а затем удалите их после загрузки. Отладку тоже будет проще.

...