Open Source Address Scrubber? - PullRequest
       9

Open Source Address Scrubber?

11 голосов
/ 15 ноября 2008

У меня есть набор имен и адресов, которые были введены в электронную таблицу Excel, но проблема в том, что многие люди, которые вводили адреса, вводили их в разных нестандартных форматах. Я хочу вычистить адреса перед передачей их всех в мою базу данных. Оглядываясь вокруг, все, что я действительно нашел в способе очистки адресов (парсеры или форматеры), это то, что выдает Семафор . Для моих целей мне все это не нужно, и я не хочу платить за лицензию на программное обеспечение. Есть ли что-нибудь, что бесплатно и / или с открытым исходным кодом, что сделает очистку для меня?

Ответы [ 5 ]

6 голосов
/ 18 ноября 2008

Так как я работаю в почтовом бизнесе ...

Почтовый адрес не является геокодированием. Один позволяет USPS доставлять почту, а другой сообщает вам, где этот пункт находится. USPS не геокодирует свои почтовые адреса. Это полезно для маркировки областей / областей людей для нацеливания.

Вы не покупаете лицензию на программное обеспечение, вы покупаете данные. Почтовое отделение имеет множество правил, особенно если вы делаете это коммерчески и пытаетесь получить лучшую ставку, чем первый класс. См. USPS Domestic Mail Manual для полного списка правил. USPS постоянно перемещает почтовые индексы и домашние хозяйства между почтовыми индексами. Компания (на которую я работаю) платит USPS за обновленный список рассылки, чтобы мы могли обновлять наши базы данных. Weekly.

Вернуться к вашему вопросу. Вы хотите преобразовать данные в общий формат (улица -> улица) или ищете дубликаты и хотите хранить только реальные почтовые адреса?

для общего формата; Вы можете разбить адрес на части, очистить пробелы и применить словарь терминов / переводов. Затем примените некоторые sql, чтобы найти дубликаты. Имейте в виду, что домохозяйства (1 главный дом) отличаются от людей (Джон Доу, 1 главный дом).

для почтовых адресов, некоторым из вас (читателям) не понравится этот ответ, но вам нужна информация, и она не бесплатна. Кто-то тратит время или деньги на приобретение и ведение этих списков. Итак, найдите бизнес-модель для получения средств для списка или обратитесь к тому, кто сделает это за вас. Управление данными и почтой

Реально, Семафор довольно дешев, просто имейте в виду, что адрес БД должен обновляться ежеквартально, а $ 19 / квартал довольно дешево.

Другой адрес Чистящий продукт. SAP PostalSoft . Я не знаю, сколько будут стоить данные.

3 голосов
/ 05 января 2012

Я на самом деле работаю в индустрии верификации адресов ... Ответ Джима - умный прием. К сожалению для тех из нас, у кого ограниченный бюджет, официальные данные USPS являются дорогостоящими, а системы сложными. (Я знаю по опыту, поскольку компания, в которой я работаю, SmartyStreets , обеспечивает проверку адреса по более низким ставкам, чем большинство.)

Лучшее, что я могу здесь сделать, - это порекомендовать недорогую / бесплатную альтернативу (в зависимости от вашего объема), такую ​​как LiveAddress, где для списка адресов нет минимальной покупки, а API супер-дешевый и супер -легко, сравнительно.

2 голосов
/ 10 сентября 2010
0 голосов
/ 18 ноября 2008

Мы используем Accuzip. Это намного дешевле, чем большинство решений (~ 700 долларов США в год) и поставляется с обновлением каждые два месяца. Он использует API стандартизации адресов USPS, для которого я написал оболочку .NET. Это позволяет мне запускать его в режиме реального времени (Accuzip по умолчанию поставляется только в пакетном режиме).

0 голосов
/ 17 ноября 2008

Большая часть программного обеспечения, с которым я работал, делает это очень дорого (или, иначе говоря, отделы маркетинга наивны и имеют огромные бюджеты).

Эта работа предшествует геокодированию. Эта связанная вики статья включает в себя список программного обеспечения для геокодирования, некоторые из которых бесплатны. Если вам повезет, некоторые из бесплатных программ могут включать процедуры стандартизации адресов.

Если найдешь хороший, дай мне знать.

...