Как работать с добавочной нагрузкой с большими наборами данных ssis - PullRequest
0 голосов
/ 01 мая 2009

У меня есть 2 таблицы (~ 4 миллиона строк), которые мне нужно выполнить, чтобы вставить / обновить действия для сопоставления и сопоставления записей. Я довольно запутался в методе, который я должен использовать для дополнительной нагрузки. Должен ли я использовать компонент Lookup или новый оператор объединения SQL Server? и будет ли слишком много различий в производительности?

Ответы [ 3 ]

1 голос
/ 12 мая 2009

Я сталкивался с этой проблемой несколько раз, и мне всегда приходилось загружать полный набор данных в SQLserver через ETL, а затем манипулировать с сохраненными процессами. Это всегда казалось слишком долгим, слишком долгое обновление данных на лету в преобразованиях SSIS.

0 голосов
/ 07 мая 2009

В SSIS Lookup есть три режима кэширования, которые являются ключом к получению максимальной производительности. Если вы смотрите на большую таблицу, режим FULL Cache израсходует большую часть вашей памяти и может снизить производительность. Если цель поиска небольшая, сохраните ее в памяти. Вы также должны решить, изменяются ли данные, с которыми вы просматриваете, при обработке данных. Если это так, то вы не хотите кэшировать.

Не могли бы вы дать нам больше информации о том, что вы делаете, чтобы я мог сформулировать более точный ответ.

0 голосов
/ 03 мая 2009

Преждевременная оптимизация - корень всего зла, я не знаю о ssis, но об этом всегда рано думать.

4 миллиона строк могут быть «большими» или «маленькими», в зависимости от типа данных и используемой конфигурации оборудования.

...