ElasticSearch: обнаружение потенциальных дубликатов - PullRequest
0 голосов
/ 17 февраля 2020

У меня есть список названий компаний, которые могут содержать много дубликатов, основанных на нечетком совпадении.

Мне нужно иметь возможность идентифицировать потенциальные дубликаты, чтобы пользователь мог вручную просмотреть и принять решение о слиянии.

Нечеткое совпадение может быть таким же простым, как проверка, имеют ли 2 компании одно и то же имя после удаления знаков препинания (например, Freight Ltd и Freight Ltd.), Или на основе скрытого нечеткого поиска (например, Adam Opel, Adam Opel AG и Opel AG все содержат Opel).

Знаете ли вы, как можно определить эти потенциальные нечеткие совпадения в Elasticsearch?

...