Мой отдел занимается сбором и отображением данных из широкого круга внутрифирменных источников для использования в интеллектуальном анализе данных / информационных панелях компаний.
Одна из серьезных проблем, с которыми мы сталкиваемся, заключается в перекрестной ссылке на названия местоположений в различныхведомства.Мы - довольно крупная организация, и отделы с разными интересами делают свои собственные отчеты для любого местоположения.В целом, в названии EXACT много различий, которые есть в названии местоположения в отчетах по этим отделам.Например, место может упоминаться как:
- Сказочный ресторан
- Сказочный ресторан
- Fabulous F & B
- Когда место проходит некоторую реконструкцию ... Fabulous Cafe '
- или даже Центр прибыли 12345ABC
Итак, у меня вопрос: какие существуют лучшие практики согласования этих имен в нашей собственной базе данных и коде?Давайте пока предположим, что мой отдел не имеет возможности объединить организацию в рамках единого стандарта иерархии (что было бы оптимальным решением).В настоящее время наша практика состоит в том, чтобы поддерживать постоянно растущие справочные таблицы имен местоположений, которые затем возвращаются в наш собственный стандарт именования.Это позволяет нам поддерживать историческую согласованность с нашими данными.
Возможно ли / целесообразно ли реализовать какой-то «нечеткий поиск» при перекрестных ссылках на местоположения?Например, что-то, что могло бы игнорировать такие слова, как «the», или относиться к «cafe» и «restaurant» одинаково (основываясь на некоторой заранее определенной логике).
Я, конечно, не думаю, что мыкогда-либо сможет алгоритмически учитывать ВСЕ случайные соглашения об именах, с которыми мы сталкиваемся, но достаточно ли этого, чтобы иметь возможность учитывать некоторые / большинство из них?