Я пытаюсь определить, какие записи в моем хранилище данных являются почти дубликатами, используя приблизительное сопоставление строк.
Есть ли какая-либо реализация следующего подхода в python, или мне нужно попытаться свернуть свой собственный?
Спасибо:)
из Википедии :
...
Подход грубой силы будет заключаться в
вычислить расстояние редактирования до P для всех
подстроки T, а затем выберите
подстрока с минимальным расстоянием.
Однако этот алгоритм будет иметь
время работы O (n3 м)
Лучшее решение [3] [4], использующее
динамическое программирование, использует
альтернативная формулировка
проблема: для каждой позиции J в
текст T и каждая позиция я в
шаблон P, рассчитать минимальное редактирование
расстояние между первым
символы шаблона, пи и любой
подстрока Tj ', j из T, которая заканчивается в
положение j.
Какой самый эффективный способ применить это ко многим строкам?