Это очень распространенная проблема. Например, вы можете иметь несколько адресов, которые представляют одно и то же физическое местоположение, но структурированы по-разному. Например:
100 Север 250 Запад
100 север 250 Вт
100 Север 250 Вт
100N 250 West
100 N 250 West
100 север 250 запад
По данным Почтовой службы США, стандартный адрес составляет 100 N 250 Вт. Только путем преобразования каждого из этих адресов в стандартизированный формат вы сможете точно удалить дубликаты и обеспечить согласованные результаты.
Адреса чрезвычайно трудно стандартизировать без какого-либо дополнительного контекста. Контекст, на который я ссылаюсь, представляет собой обновленный основной список всех действительных / подлежащих доставке адресов в стране. На самом деле это недоступно в виде списка (оно будет огромным), но доступно для доступа в виде API. Почтовая служба США делает их API доступными, и есть другие компании, которые берут данные USPS и улучшают их через свой собственный API. Усовершенствования, как правило, заключаются в более быстром обслуживании и гарантированном времени безотказной работы, а также в дополнительных функциях обработки адреса и получения большего количества данных об адресе.
Итак, в быстром ответе, лучший способ проверки орфографии на улице - использовать API для проверки полного адреса.
В целях полного раскрытия информации я являюсь учредителем SmartyStreets , и мы проводим проверку адреса. Если вы некоммерческая организация, вы можете пользоваться нашими услугами бесплатно. Существует несколько компаний по проверке адресов - просто выполните поиск Google для «проверки адреса», и вы найдете кучу.