Question

Я импортирую некоторые данные, которые включают адреса с концертных площадок, которые были вручную введены разными пользователями.Таким образом, помимо орфографических ошибок, у меня также есть различные варианты написания (Штрассе, Штрассе, Str. ...).Адресная запись состоит из:

название (места проведения)
улица (включая номер дома)
город
почтовый индекс

Моя идея заключалась бы в том, чтобы вычислить расстояние Левинстина-Дамерау между всеми экземплярами адресов, а затем найти тесно связанные экземпляры.Затем пользователь должен решить, являются ли эти адреса одинаковыми и какое написание следует использовать.

Я немного беспокоюсь об O (n²), когда речь идет о расчете расстояния между всеми адресными данными (плюс 5000 минус).).

Является ли мой подход разумным и какие улучшения возможны.Также мне интересно, как пользовательский интерфейс, когда дело доходит до принятия решения о дублетах, мог бы выглядеть так ...

Заранее спасибо,
Фрэнк

Сопоставление (адресных) объектов с правописанием различий

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Сопоставление (адресных) объектов с правописанием различий

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы