Какой алгоритм строки metri c или NLP следует использовать для поиска подстроки в разных URL - PullRequest
0 голосов
/ 13 января 2020

Я пытаюсь найти URL-адреса, в которых есть пользовательские ключевые слова.

Eg. Keyword - 'Avengers' 
#URL1: www.xyzmovies.com/Avengers_2019/243564
#URL2: www.avengers.org/4r43435
#URL3: www.abcmovies.co/23543/avenngers_34435/walt/marvel/comics

Сложность заключается в том, что в URL-адресах нет единого стандарта, ключевые слова могут быть в любом месте URL-адреса. Нужно поймать URL, которые тоже имеют орфографические ошибки.

Какой алгоритм лучше всего подходит для выполнения этой задачи в python.

1 Ответ

0 голосов
/ 13 января 2020

Если я правильно понимаю, вы можете просто использовать

"keyword".lower() in url.lower()

. Это вернет True, если ключевое слово в URL, и False в противном случае. .Lower () гарантирует, что результат не чувствителен к регистру. Чтобы учесть опечатки, я бы проверил библиотеки stringgrouper или fuzzywuzzy . Частичное отношение Fuzzywuzzy было бы хорошо для этого, потому что оно специально рассматривает частичные совпадения строк, поэтому ваше ключевое слово «Мстители» будет считаться идеальным соответствием URL1, тогда как «Avnegers», вероятно, все равно будет иметь высокий балл.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...