Я импортирую некоторые данные, которые включают адреса с концертных площадок, которые были вручную введены разными пользователями.Таким образом, помимо орфографических ошибок, у меня также есть различные варианты написания (Штрассе, Штрассе, Str. ...).Адресная запись состоит из:
- название (места проведения)
- улица (включая номер дома)
- город
- почтовый индекс
Моя идея заключалась бы в том, чтобы вычислить расстояние Левинстина-Дамерау между всеми экземплярами адресов, а затем найти тесно связанные экземпляры.Затем пользователь должен решить, являются ли эти адреса одинаковыми и какое написание следует использовать.
Я немного беспокоюсь об O (n²), когда речь идет о расчете расстояния между всеми адресными данными (плюс 5000 минус).).
Является ли мой подход разумным и какие улучшения возможны.Также мне интересно, как пользовательский интерфейс, когда дело доходит до принятия решения о дублетах, мог бы выглядеть так ...
Заранее спасибо,
Фрэнк