Правильный способ использования опции pos_tagger в gensim + извлечение ключевых слов - PullRequest
0 голосов
/ 16 мая 2018

При использовании " Keywords () " в файле Summaration / Keywords.py я получаю один и тот же набор тегов, независимо от того, какое значение я выберу для pos_tagger = ['NN'], [' JJ '] или [' NN ',' JJ ']

from gensim.summarization import keywords
import requests

url='https://www.nytimes.com/2018/05/16/opinion/ramadan-spirit-america.html'
text = requests.get(url).text

print keywords(text,words=15,pos_filter=('NN'),lemmatize=True,scores=True)
print keywords(text,words=15,pos_filter('NN','JJ'),lemmatize=True,scores=True)
print keywords(text,words=15,pos_filter=('JJ'),lemmatize=True,scores=True)
Ожидаемые результаты

Если я задаю pos_filter как 'NN', только существительные должны приходить в качестве тегов, однако, такие теги, как "начато", "смотреть" также появляются в качестве выходных данных. Аналогично, нет разницы в выходных данных независимо от pos_filter = 'NN', pos_filter = 'NN', 'JJ', pos_filter = 'JJ'

Как правильно использовать pos_filter для отображения соответствующего результата?

Фактические результаты

студент: 0.20870111939889552, мусульманите: 0.18960896637225794, американец: 0.18895097005190414, рамадан: +0,17605599898176202, месяц: +0,12130699512494893, начали: 0,11817668681654464, сообщество: +0,11691583075245701, места: 0,1117677772315554, эзотерика: +0,103727092629442, автомобиль: 0,09988305780275739, белый: 0,09747271853405554, козырь: 0,09747271853405551 , ищет: 0,09538360210000996, президент: 0,09538360210000986, черный: 0,0920316444206821

студент: 0.2087011193988958, мусульманите: 0.18960896637225758, американец: 0.1889509700519042, рамадан: +0,17605599898176225, месяц: 0,12130699512494901, начали: +0,11817668681654461, сообщество: 0,11691583075245732, места: +0,11176777723155559, эзотерика: +0,10372709262944187, автомобиль: +0,099883057802757, козырь: 0.09747271853405544, белый: 0.09747271853405512 , президент: 0,0953836021000099, ищет: 0,09538360210000954, черный: 0,09203164442068222

студент: 0.20870111939889593, мусульманите: 0.1896089663722575, американец: 0.1889509700519037, рамадан: 0,17605599898176255, месяц: 0,1213069951249494, начали: 0,11817668681654483, сообщество: 0,11691583075245665, места: +0,11176777723155547, эзотерика: 0,10372709262944207, автомобиль: 0,09988305780275722, белый: +0,09747271853405541, козырь: 0,09747271853405526 , глядя: 0.09538360210000975, президент: 0.0953836021000096, черный: 0.09203164442068222

...