Алгоритм поиска строки по списку строковых тегов - PullRequest
0 голосов
/ 23 апреля 2019

В настоящее время я пытаюсь реализовать алгоритм поиска, в котором пользователь вводит строковый запрос, который будет сравниваться с объектом, содержащим список строковых «тегов» или просто однословных строк. Я хочу, чтобы результат был списком объектов, отсортированных по списку, который наилучшим образом соответствовал этому запросу.

Моя текущая реализация использует расстояние Левенштейна для каждого тега с запросом, добавляя его к итоговому значению и деля на количество тегов. Однако я представляю много минусов в этом подходе, и мне было интересно, есть ли более распространенный подход к этому.

1 Ответ

0 голосов
/ 23 апреля 2019

Я думаю, что это похоже. Как извлечь ключевые слова (теги) из текста

Как долго ваш запрос ???

Для небольшого текста запроса вы можете посетить

https://towardsdatascience.com/extracting-keywords-from-short-text-fce39157166b

Я не думаю, что расстояние Левенштейна является очень эффективным способом генерации токена.Он основан на совпадении пропущенной строки, однако из запроса вы захотите узнать ключевое слово, представляющее цель вашего запроса, а затем проверить его из списка тегов, который подходит ему идеально.

Вы можете использовать множество доступных библиотек, таких как nltk, apache open nlp и т. Д.Они напрямую генерируют токен.

Это может помочь вам. Как извлечь ключевые слова (теги) из текста

...