Сопоставление (адресных) объектов с правописанием различий - PullRequest
0 голосов
/ 15 мая 2018

Я импортирую некоторые данные, которые включают адреса с концертных площадок, которые были вручную введены разными пользователями.Таким образом, помимо орфографических ошибок, у меня также есть различные варианты написания (Штрассе, Штрассе, Str. ...).Адресная запись состоит из:

  • название (места проведения)
  • улица (включая номер дома)
  • город
  • почтовый индекс

Моя идея заключалась бы в том, чтобы вычислить расстояние Левинстина-Дамерау между всеми экземплярами адресов, а затем найти тесно связанные экземпляры.Затем пользователь должен решить, являются ли эти адреса одинаковыми и какое написание следует использовать.

Я немного беспокоюсь об O (n²), когда речь идет о расчете расстояния между всеми адресными данными (плюс 5000 минус).).

Является ли мой подход разумным и какие улучшения возможны.Также мне интересно, как пользовательский интерфейс, когда дело доходит до принятия решения о дублетах, мог бы выглядеть так ...

Заранее спасибо,
Фрэнк

...