Редактировать для пояснения: я собираю данные еженедельно, основываясь на Zip_Code, но некоторые Zip_Codes являются избыточными.Я знаю, что смогу собрать небольшой объем данных и получить избыточные zip_codes, если смогу установить отношения.
Я хочу определить регион почтового индекса по уникальному набору элементов и значений, которые появляются в этом почтовом индексе, чтобы создать «Таблицу регионов»
Я ищунайти связи по почтовому индексу с определенными данными.В конечном счете, у меня есть таблицы, в которых есть аналогичные значения для многих почтовых индексов.
У меня есть данные, подобные:
ItemCode |Value | Zip_Code
-----------|-------|-------
1 |10 | 1
2 |15 | 1
3 |5 | 1
1 |10 | 2
2 |15 | 2
3 |5 | 2
1 |10 | 3
2 |10 | 3
3 |15 | 3
Или, чтобы упростить идею, я мог бы даже преобразовать ItemCode + Value в уникальныйзначения:
ItemCode+
Value | Zip_Code
A | 1
B | 1
C | 1
A | 2
B | 2
C | 2
A | 3
D | 3
E | 3
Как видите, Zip_Code 1 и 2 имеют одинаковые отдельные ItemCode и Value.Zip_Code 3, однако, имеет разные значения для определенных ItemCodes.
Мне нужно создать таблицу, которая устанавливает связь между кодами Zip_Code, которые содержат одинаковые данные.
Финальная таблица будет выглядеть примерно так:
Zip_Code | Region
1 | 1
2 | 1
3 | 2
4 | 2
5 | 1
6 | 3
...etc
Это позволитя собираю данные только один раз для каждого уникального региона и получаю zip_code соответствующим образом.
То, что я делаю сейчас:
В настоящее время я использую запрос, аналогичныйобъединение и сравнение с Zip_Code, используя что-то вроде:
SELECT a.ItemCode
,a.value
,a.zip_code
,b.ItemCode
,b.value
,b.zip_code
FROM mytable as a, mytable as b -- select from table twice, similar to a join
WHERE a.zip_code = 1 -- left table will have all ItemCode and Value from zip 1
AND b.zip_code = 2 -- right table will have all ItemCode and Value from zip 2
AND a.ItemCode = b.ItemCode -- matches rows on ItemCode
AND a.Value != b.Value
ORDER BY ItemCode
Это ничего не возвращает, если два почтовых индекса имеют одинаковые ItemNum и Value, и возвращает множество различий между двумя zipкоды, если есть различия.
Однако необходимо перейти от ручного процесса к автоматизированному процессу, поскольку я сейчас работаю с более чем 100 zip_codes.
У меня нет большого опыта программированияна определенных языках, поэтому инструменты в SSIS несколько ограничены для меня.У меня есть некоторый опыт использования инструментов Fuzzy, и я чувствую, что в Fuzzy Grouping может быть что-то, что может пролить свет на видимые области, но не могу понять, как его настроить.
У кого-нибудь естьпредложения?У меня есть доступ к SQLServ и связанным с ним инструментам, а также к Visual Studio.Я пытаюсь избежать написания программы для автоматизации этого, так как мои навыки c # относительно нудистны, но я пойму это при необходимости.
Извините за столь многословный: это мой первый Вопрос, и страница, которую ясогласился, чтобы задать вопрос, предложенный для подробного объяснения, и рассказать о том, что я пробовал ... Заранее благодарен за любую помощь, которую я могу получить.