используя расстояние Левенштейна, чтобы создать выдержку - PullRequest
0 голосов
/ 17 июля 2009

ок, я создаю поисковик. и модуль поиска, способный извлекать соответствующие слова. и теперь у меня есть список слов и их смещение в исходном исходном тексте. Это плохая идея использовать расстояние Левенштейна для вычисления разницы между строкой запроса и частью исходного текста (начинаются со смещения данного слова и до длины строки запроса ). спросите, я думал, это поможет мне быстрее создать отрывок.

он не нуждается в поиске близости и т. Д., Только в обычных режимах «ЛЮБОЙ» и «ВСЕ». Кстати, результаты уже отсортированы, так что я сейчас смотрю только на отрывок. спасибо.

1 Ответ

1 голос
/ 17 июля 2009

Построить отображение один-ко-многим из текста в содержащиеся слова (и их количество). Этот вектор «мешок слов» может затем использоваться для множества различных техник.

...