Алгоритм, используемый в Excel Fuzzy Lookup - PullRequest
0 голосов
/ 28 сентября 2018

Я работал над сопоставлением названий компаний из двух наборов.Я пытался закодировать его на Python с расстояния Левенстиена.У меня были проблемы с короткими названиями компаний и их последней частью, такой как Pvt, Ltd.Я запустил тот же набор с поиском Excel Fuzzy и получал хорошие результаты.Я могу увидеть, как кодируется нечеткий поиск в Excel, и использовать ту же реализацию в Python.

1 Ответ

0 голосов
/ 04 марта 2019

Как я знаю, Fuzzy Lookup использует сходство с Джакардом.Посмотри его документацию.Пока я играю, вы также можете попробовать SequenceMatcher и поиграть с уровнями сходства - это дает очень хорошие результаты после объединения текстовых строк.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...