Так как я работаю в почтовом бизнесе ...
Почтовый адрес не является геокодированием. Один позволяет USPS доставлять почту, а другой сообщает вам, где этот пункт находится. USPS не геокодирует свои почтовые адреса. Это полезно для маркировки областей / областей людей для нацеливания.
Вы не покупаете лицензию на программное обеспечение, вы покупаете данные. Почтовое отделение имеет множество правил, особенно если вы делаете это коммерчески и пытаетесь получить лучшую ставку, чем первый класс. См. USPS Domestic Mail Manual для полного списка правил. USPS постоянно перемещает почтовые индексы и домашние хозяйства между почтовыми индексами. Компания (на которую я работаю) платит USPS за обновленный список рассылки, чтобы мы могли обновлять наши базы данных. Weekly.
Вернуться к вашему вопросу. Вы хотите преобразовать данные в общий формат (улица -> улица) или ищете дубликаты и хотите хранить только реальные почтовые адреса?
для общего формата; Вы можете разбить адрес на части, очистить пробелы и применить словарь терминов / переводов. Затем примените некоторые sql, чтобы найти дубликаты. Имейте в виду, что домохозяйства (1 главный дом) отличаются от людей (Джон Доу, 1 главный дом).
для почтовых адресов, некоторым из вас (читателям) не понравится этот ответ, но вам нужна информация, и она не бесплатна. Кто-то тратит время или деньги на приобретение и ведение этих списков. Итак, найдите бизнес-модель для получения средств для списка или обратитесь к тому, кто сделает это за вас. Управление данными и почтой
Реально, Семафор довольно дешев, просто имейте в виду, что адрес БД должен обновляться ежеквартально, а $ 19 / квартал довольно дешево.
Другой адрес Чистящий продукт. SAP PostalSoft . Я не знаю, сколько будут стоить данные.