Преодоление длины шаблона поиска алгоритма Bitap - PullRequest
3 голосов
/ 03 мая 2009

Я новичок в области приблизительного соответствия строк.

Я изучаю использование алгоритма Bitap , но пока его ограниченная длина паттерна меня беспокоит. Я работаю с Flash и располагаю 32-разрядными целыми числами без знака и типом чисел с плавающей точкой двойной точности IEEE-754, который может выделять до 53 битов для целых чисел. Тем не менее, я бы предпочел использовать алгоритм нечеткого сопоставления, который может обрабатывать более длинные шаблоны, чем 50 символов.

На странице Википедии алгоритма Bitap упоминается libbitap, которая предположительно демонстрирует реализацию алгоритма с неограниченной длиной шаблона, но у меня возникают проблемы при получении идеи из его источников.

Есть ли у вас какие-либо предложения о том, как обобщить Bitap для шаблонов неограниченной длины или о другом алгоритме, который может выполнять нечеткое сопоставление строк иглы вблизи предполагаемого места в стоге сена?

1 Ответ

2 голосов
/ 27 ноября 2009

Существует довольно неплохая реализация этого алгоритма, доступная по адресу google code . Попытайся. Хотя я не могу понять, как получить точное местоположение (начальную и конечную точку в тексте) нечеткого совпадения. Если у вас есть идеи, как получить начальную и конечную точки, пожалуйста, поделитесь.

...