У меня проблема с поиском и сопоставлением:
Входные данные
В моей базе данных у меня есть тысячи имен, в дополнение к некоторым другим характеристикам соответствия: несколько столбцов числовых данных инесколько столбцов другого текста, который помогает идентифицировать эту конкретную компанию.
У потенциального клиента есть около 500 названий компаний, а затем немногочисленные дополнительные характеристики, как указано выше для каждого из названий.
ТекущийПроцесс
В прошлом этот процесс выполнялся вручную, пытаясь сопоставить каждое имя, данное клиентом, выполнив поиск в базе данных, найдя имя, похожее на сообщенное мне, и затем проверив, чтодополнительные характеристики совпадают.Однако основная проблема заключается в том, что указанные имена не совпадают, часто могут содержать сокращения или только части имени, хранящиеся в моей базе данных, а дополнительные характеристики могут быть неполными или совпадать только частично.
Автоматизация
Я хочу автоматизировать этот процесс, так как это происходит часто.Оптимальным решением было бы ввести одну компанию из списка клиентов вместе с любыми дополнительными характеристиками, которые они заполнили, и затем попытаться найти 5 лучших совпадений в моей базе данных.
Я никогда не использовал Lucene илиСфинкс, но они, похоже, больше ориентированы на документы.Есть ли способ отформатировать эти входные данные, чтобы эти библиотеки работали для этой проблемы, или вместо этого существуют какие-то другие программные инструменты, которые могли бы работать?