У меня есть список названий компаний, которые могут содержать много дубликатов, основанных на нечетком совпадении.
Мне нужно иметь возможность идентифицировать потенциальные дубликаты, чтобы пользователь мог вручную просмотреть и принять решение о слиянии.
Нечеткое совпадение может быть таким же простым, как проверка, имеют ли 2 компании одно и то же имя после удаления знаков препинания (например, Freight Ltd
и Freight Ltd
.), Или на основе скрытого нечеткого поиска (например, Adam Opel
, Adam Opel AG
и Opel AG
все содержат Opel).
Знаете ли вы, как можно определить эти потенциальные нечеткие совпадения в Elasticsearch?