У нас есть сторонний «инструмент», который находит похожие имена и назначает оценку сходства между двумя именами.
Я должен максимально точно имитировать поведение инструмента.После поиска по интернету, дал метод на расстоянии. Используется fuzzywuzzy для того же.
matches = process.extractBests(
name,
choices,
score_cutoff=50,
scorer=fuzz.token_sort_ratio,
limit=1
);
Он дал результаты, близкие к результату инструмента.ниже.
После дальнейших поисков по Интернету я понял, что для дальнейшей доработки потребуется реализация своего рода машинного обучения.Я - новичок в мире машинного обучения, поэтому ищу несколько советов о том, куда мне следует обратиться для дальнейшего уточнения кода.
Спасибо!