очистка пропущенного геокодирования (или общие рекомендации по очистке данных) - PullRequest
3 голосов
/ 12 марта 2009

У меня довольно большая база адресов адресов (500k +) со всего мира. Хотя многие адреса являются дубликатами или почти дубликатами. Всякий раз, когда вводится новый адрес, я проверяю, есть ли он в базе данных, и если да, то беру уже существующий широту / долготу и применяю его к новой записи. Причина, по которой я не ссылаюсь на отдельную таблицу, заключается в том, что адреса не используются в качестве группы для поиска, и их часто достаточно, чтобы адреса отличались от других. Если у меня есть полное совпадение по адресу, я применяю этот лат / лонг. Если нет, я перехожу на уровень города и применяю это, если я не могу найти там соответствие, у меня есть отдельный процесс для запуска.

Теперь, когда у вас есть обширный опыт, проблема. Изредка я получаю широту / долготу, которая далеко выходит за пределы допустимого диапазона ошибок. Однако, как ни странно, обычно только один или два из этих широт / длинн выходят за пределы диапазона, в то время как остальные данные существуют в базе данных с правильным названием города.

Как бы вы порекомендовали очистить данные. У меня есть база данных geonames, поэтому теоретически у меня есть правильные данные. То, с чем я борюсь, это то, что вы должны выполнить, чтобы добиться этого.

Если бы кто-то мог указать мне направление некоторого (низкого уровня) направления очистки данных, это было бы замечательно.

1 Ответ

0 голосов
/ 13 января 2012

Это старый вопрос, но истинные принципы никогда не умирают, верно?

Я работаю в сфере верификации адресов в компании под названием SmartyStreets. Если у вас есть большой список адресов, и вам нужно их «очистить», отшлифовать до официальных стандартов, а затем использовать его для любого аспекта вашей работы, вы лучше всего посмотрите на сертифицированное CASS программное обеспечение (только для США; страны сильно различаются, и многие официально не предлагают такую ​​услугу).

USPS лицензирует сертифицированных CASS поставщиков для «очистки» или «очистки» (что означает: стандартизировать и проверять) адресные данные. Я бы посоветовал вам обратиться к такой службе, как SmartyStreets LiveAddress , чтобы проверить адреса или обработать список сразу. Есть и другие варианты, но я думаю, что это наиболее гибкий и доступный для вас. Вы можете очистить свой первоначальный список, а затем использовать API для проверки новых адресов по мере их получения.

Обновление: я вижу, что вы используете JSON для разных вещей (кстати, мне нравится JSON, его так легко использовать). Существует не так много поставщиков услуг, которые вам нужны, но SmartyStreets делает . Кроме того, вы сможете самостоятельно изучить тему проверки адресов, прочитав некоторые ресурсы / статьи на этом сайте.

...