Соответствие имени в питоне - PullRequest
0 голосов
/ 27 мая 2019

У нас есть сторонний «инструмент», который находит похожие имена и назначает оценку сходства между двумя именами.

Я должен максимально точно имитировать поведение инструмента.После поиска по интернету, дал метод на расстоянии. Используется fuzzywuzzy для того же.

matches = process.extractBests(
    name, 
    choices, 
    score_cutoff=50, 
    scorer=fuzz.token_sort_ratio,
    limit=1 
);

Он дал результаты, близкие к результату инструмента.ниже.

enter image description here

После дальнейших поисков по Интернету я понял, что для дальнейшей доработки потребуется реализация своего рода машинного обучения.Я - новичок в мире машинного обучения, поэтому ищу несколько советов о том, куда мне следует обратиться для дальнейшего уточнения кода.

Спасибо!

1 Ответ

0 голосов
/ 27 мая 2019

Взгляните на алгоритмы Жакара и Левенштейна для нечеткого сопоставления строк. Оба относительно просты и могут быть реализованы в 40 или 50 строках кода.

...