Сопоставление слов с анализатором фрагментов NLTK - PullRequest
6 голосов
/ 21 ноября 2011

Регулярные выражения синтаксического анализатора фрагментов NLTK могут соответствовать тегам POS, но могут ли они также соответствовать определенным словам?
Итак, предположим, что я хочу разделить любую структуру с существительным, за которым следует глагол «влево» (назовите этот шаблон L). Например, предложение «\ DT dog \ NN left \ VB» должно быть помечено как
(S (DT the) (L (NN собака) (VB слева))), но предложение «\ DT собака \ NN спал \ VB» вообще не будет разбито на куски.

Мне не удалось найти никакой документации по синтаксису регулярных выражений, и все примеры, которые я видел, соответствуют только POS-тегам.

1 Ответ

1 голос
/ 21 марта 2012

У меня была похожая проблема, и после того, как я понял, что шаблон регулярного выражения будет проверять только теги, я изменил тег на интересующем вас фрагменте.

Например, я пытался сопоставить название продукта иверсия и использование правила чанка, такого как \ NNP + \ CD, работали для «Internet Explorer 8.0», но не работали в «Internet Explorer 8.0 SP2», где он помечал SP2 как NNP.

Возможно, я мог бы обучить POS-тегер, но решил вместо этого просто изменить тег на SP, и тогда правило чанков, такое как \ NNP + \ CD \ SP *, будет соответствовать любому примеру.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...