Мне нужно знать критерии, которые делали нечеткий алгоритм отличным друг от друга между этими 3:
Алгоритм расстояния Левенштейна
Расстояние Левенштейна - это строковая метрика для измерения разности между двумя последовательностями. Неформально расстояние Левенштейна между двумя словами - это минимальное количество односимвольных правок (т. Е. Вставок, удалений или подстановок), необходимых для замены одного слова на другое.
Расстояние Дамерау – Левенштейна
Расстояние Дамерау – Левенштейна - это расстояние (метрика строки) между двумя строками, т. Е. Конечная последовательность символов, определяемая путем подсчета минимального количества операций, необходимых для преобразования одной строки в другую, где определена операция как вставка, удаление или замена одного символа или транспозиция двух соседних символов.
Алгоритм Bitap с модификациями Wu и Manber
Алгоритм растрового изображения - это алгоритм приблизительного сопоставления строк. Алгоритм сообщает, содержит ли данный текст подстроку, которая «приблизительно равна» заданному шаблону, где приблизительное равенство определяется в терминах расстояния Левенштейна - если подстрока и шаблон находятся в пределах заданного расстояния k друг от друга, то алгоритм считает их равными.
Мой документ представляет собой таблицу с названиями компаний, некоторые компании дважды или трижды из-за опечаток. В данном конкретном случае, как группировать компании, сопоставляя их? Какой алгоритм выбрать и почему? В файле у меня 100к строк и он растет.