Пакет Python для поиска предопределенных ключевых слов / тегов в файле / url / string - PullRequest
0 голосов
/ 04 декабря 2011

Существуют ли какие-либо пакеты Python, которые могут взять список ключевых слов / тегов и сопоставить их с заданной строкой / файлом / URL-адресом?

В частности, с использованием основ и / или другого синонимного способа сопоставления.

т.е. мои предварительно сохраненные ключевые слова:

Ski, Bike, Climb

мой текст:

Skiing in the mountains is great

Должен быть помечен Ski

Skiing and mountain biking is fun

Должен быть помечен Ski И Bike

И если у меня есть файл синонимов, где-то сопоставляется Bike с MTB

MTB is a great way to spend the day

Должен быть помечен Bike

Ответы [ 2 ]

0 голосов
/ 04 декабря 2011

Я не знаю ни одного пакета, чтобы сделать это, но на самом деле это очень просто с простым Python.используя re (regex) стандартный пакет.что-то вроде

import re
key_words =['ski','bike','climb'] 
input = "Skiing and mountain biking is fun"

input_words = input.split()#split on space
[word.lower() for word in input_words]
input_tags =[]
for word in input_words:
   for key in key_words:
      if re.search(key,word):
         input_tags.append(key)
0 голосов
/ 04 декабря 2011

См. Thesaurus (вы также можете попробовать разные модули, такие как synonym module ).

Также вы можете проверить предложения для содержания определенных строкиспользуя in:

>>> 'Ski' in 'Skiing in the mountains is great'
True
>>> 'Bike' in 'Skiing in the mountains is great'
False
...