У меня довольно большая база адресов адресов (500k +) со всего мира. Хотя многие адреса являются дубликатами или почти дубликатами.
Всякий раз, когда вводится новый адрес, я проверяю, есть ли он в базе данных, и если да, то беру уже существующий широту / долготу и применяю его к новой записи.
Причина, по которой я не ссылаюсь на отдельную таблицу, заключается в том, что адреса не используются в качестве группы для поиска, и их часто достаточно, чтобы адреса отличались от других.
Если у меня есть полное совпадение по адресу, я применяю этот лат / лонг. Если нет, я перехожу на уровень города и применяю это, если я не могу найти там соответствие, у меня есть отдельный процесс для запуска.
Теперь, когда у вас есть обширный опыт, проблема. Изредка я получаю широту / долготу, которая далеко выходит за пределы допустимого диапазона ошибок. Однако, как ни странно, обычно только один или два из этих широт / длинн выходят за пределы диапазона, в то время как остальные данные существуют в базе данных с правильным названием города.
Как бы вы порекомендовали очистить данные. У меня есть база данных geonames, поэтому теоретически у меня есть правильные данные. То, с чем я борюсь, это то, что вы должны выполнить, чтобы добиться этого.
Если бы кто-то мог указать мне направление некоторого (низкого уровня) направления очистки данных, это было бы замечательно.