Составной домен DQS - поле имени необработанных данных содержит имена людей и компании - PullRequest
0 голосов
/ 13 марта 2012

Я пытаюсь создать базу знаний в SQL Server 2012 DQS.В необработанных данных, которые я пытаюсь выполнить через DQS, у меня есть поле, которое является полем полного имени, которое, к сожалению, может содержать как имена людей, так и компании.Мне было интересно, есть ли у кого-нибудь совет о том, как очистить и проанализировать это поле с помощью DQS без необходимости приобретать справочную службу данных, чтобы, если это название компании, оно помещало все поле в домен FirstName или LastName, но если это не компанияЗатем name разбирает полное имя на соответствующие домены.

Я создал составной домен с именем FullName, который состоит из доменов FirstName, MiddleName и LastName, и сопоставил его с моими необработанными данными.Затем я использовал синтаксический анализ на основе составной предметной области, чтобы попытаться проанализировать эти значения в соответствующих полях, но, к сожалению, он пытается проанализировать названия компаний, как если бы они были людьми, поэтому я получаю много фамилий, таких как «& Associates Inc» и т. Д.

Кажется, что самый простой способ решить эту проблему - создать домен бизнес-слов и создать правило составного домена, которое в основном гласит: если какое-либо из слов в домене FullName находится в домене BusinessWord, поместитеполное имя в домене FirstName, иначе попытайтесь разобрать имя на первое, среднее, последнее.Этот тип поиска выходит за рамки возможностей DQS?

Пока что единственное, что я могу найти для правил DQS CD, - это создавать правила, которые жестко закодированы, то есть, если город "Лондон", то измените страну на "Англия", но я бы хотел более динамичное правило, котороеговорит, что если BusinessWord в FullName, то поместите все это в FirstName.Просто интересно, сталкивался ли кто-нибудь, кто пробует DQS, с подобной проблемой, и можно ли ее решить без необходимости платить смешную сумму денег за услугу справочной информации.

Если вы не можете очистить имена и адреса с помощью этой вещи, то для чего она нужна?

Заранее спасибо.

1 Ответ

0 голосов
/ 18 мая 2012

Я бы решил эту проблему, используя КБ в задаче DQS в рамках рабочего процесса служб SSIS. Это сообщение в блоге содержит справку о том, как использовать задачу DQS. В вашей ситуации я бы использовал вывод столбца состояния (определил правило), а затем перенаправил вывод в соответствии с вашими бизнес-правилами через дополнительные задачи служб SSIS.

Я знаю, что это не идеально, однако я думаю, что это решило бы ближайшую задачу.

...