Как создать сущности из токенов, помеченных аннотатором regexner? - PullRequest
0 голосов
/ 25 октября 2018

Этот вопрос похож на Могу ли я получить entityMention из результата сопоставления TokensRegex в Stanford CoreNLP?

У меня есть набор правил TokensRegex, которые помечают токены другим тегомчем стандартные "LOCATION", "PERSON" и т. д.

Аннотатор entitymentions очень полезен для именованных объектов с несколькими токенами.Как я могу также создать сущности для последовательностей токенов, которые помечены аннотатором regexner?Похоже, они не созданы со стандартными настройками.

Я использую CoreNLP 3.9.2 с http API

Спасибо за помощь

1 Ответ

0 голосов
/ 06 ноября 2018

Вот пример команды

java -Xmx5g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner -ner.additional.tokensregex.rules example.rules -file example.txt -outputFormat text

Дополнительная информация ... ner аннотатор выполнит серию шагов

  1. статистический нер
  2. числовые последовательности и SUTime
  3. мелкозернистый NER (пример: LOCATION -> STATE_OR_PROVINCE)
  4. дополнительные правила TokensRegexNER
  5. дополнительные правила TokensRegex
  6. построение сущностей

Таким образом, после выполнения шагов 1-5 сущности будут построены и будут видеть теги из ваших правил TokensRegex.

Это в текущем коде GitHub и версии 3.9.2 (не работает со старыми версиями).

Подробнее здесь: https://stanfordnlp.github.io/CoreNLP/ner.html

...