pos_tag
, в соответствии с его строкой документации, использует «рекомендованную в настоящее время часть речевого тега NLTK», поэтому срок действия этого совета может истечь. Для воспроизводимых результатов используйте явный объект тега POS.
Глядя на исходный код для pos_tag
, мы видим, что он вызывает
>>> nltk.data.load('taggers/maxent_treebank_pos_tagger/english.pickle')
, из которого мы можем получить список POS-тегов с
>>> _.classifier().labels()
['PRP$', 'VBG', 'VBD', '``', 'VBN', 'POS', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ',
'DT', '#', 'RP', '$', 'NN', 'FW', ',', '.', 'TO', 'PRP', 'RB', '-LRB-', ':',
'NNS', 'NNP', 'VB', 'WRB', 'CC', 'LS', 'PDT', 'RBS', 'RBR', 'CD', '-NONE-',
'EX', 'IN', 'WP$', 'MD', 'NNPS', '-RRB-', 'JJS', 'JJR', 'SYM', 'UH']
(Должен признать, что я выяснил это с помощью проверки объектов и проб и ошибок.)
Прилагательные и наречия будут, по крайней мере, категории JJ
(прил.) И RB
(нареч), плюс, возможно, VBN
(причастие в прошлом, например, "усталый").