Maxent POS тег таблица - PullRequest
       11

Maxent POS тег таблица

2 голосов
/ 18 ноября 2011

Я использую nltk.pos_tag для пометки части речи, в которой используется maxent part of speech tagger.Мне нужна таблица всех доступных тегов.

Моя конечная цель - извлечь из текста только наречия и прилагательные.

Любая помощь приветствуется.

Спасибо

Ответы [ 2 ]

4 голосов
/ 18 ноября 2011

pos_tag, в соответствии с его строкой документации, использует «рекомендованную в настоящее время часть речевого тега NLTK», поэтому срок действия этого совета может истечь. Для воспроизводимых результатов используйте явный объект тега POS.

Глядя на исходный код для pos_tag, мы видим, что он вызывает

>>> nltk.data.load('taggers/maxent_treebank_pos_tagger/english.pickle')

, из которого мы можем получить список POS-тегов с

>>> _.classifier().labels()
['PRP$', 'VBG', 'VBD', '``', 'VBN', 'POS', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ',
 'DT', '#', 'RP', '$', 'NN', 'FW', ',', '.', 'TO', 'PRP', 'RB', '-LRB-', ':',
 'NNS', 'NNP', 'VB', 'WRB', 'CC', 'LS', 'PDT', 'RBS', 'RBR', 'CD', '-NONE-',
 'EX', 'IN', 'WP$', 'MD', 'NNPS', '-RRB-', 'JJS', 'JJR', 'SYM', 'UH']

(Должен признать, что я выяснил это с помощью проверки объектов и проб и ошибок.)

Прилагательные и наречия будут, по крайней мере, категории JJ (прил.) И RB (нареч), плюс, возможно, VBN (причастие в прошлом, например, "усталый").

1 голос
/ 10 февраля 2014

Попробуйте:

import nltk
nltk.help.upenn_tagset()
# and
nltk.help.brown_tagset()
...