Возможная ошибка с Stanford POS Tagger и классификационным намерением и ответами - PullRequest
0 голосов
/ 12 декабря 2018

У меня есть конкретный вариант использования, где человек сказал бы что-то вроде этого:

  • "Эй (слово триггера), заметка в истории объекта XYZ" или:
  • "Эй (триггерное слово), запишите в диагностике объекта, что PQR"
  • ("объект", как используется вНапример, это местозаполнитель, который можно заменить словами «Техническое обслуживание / пациент» и т. д.

    Затем я использую Stanford Parser для синтаксического анализа предложения, например, синтаксический анализ "Примечание в объекте истории объекта последний раз обновлялось в двадцать восемнадцать мая" дает этот списоккортеж:

    [('Note', 'VB'),
     ('in', 'IN'),
     ('object', 'NN'),
     ('history', 'NN'),
     ('object', 'NN'),
     ('was', 'VBD'),
     ('last', 'RB'),
     ('updated', 'VBN'),
     ('in', 'IN'),
     ('may', 'MD'),
     ('twenty', 'CD'),
     ('eighteen', 'CD')]
    
    1. Теперь я хочу сказать, как я могу использовать эту информацию для получения необходимого результата:

      • Где отметить (у нас есть поле в БД: История объекта) и
      • Что отметить (объект был последний раз обновлен в двадцать восемнадцать мая) .
    2. Другая проблема заключается в том, что вход НЛП поступает из системы ASR, капитализация отсутствует.И POS Tagger неправильно отмечает «примечание» как «NN» (вместо «VB»).В идеале «примечание» / «запись» должно быть глаголом.Как мне решить эту вероятную ошибку?

1 Ответ

0 голосов
/ 13 декабря 2018

Вы можете использовать TrueCaseAnnotator для устранения проблем с кейсом:

https://stanfordnlp.github.io/CoreNLP/truecase.html

В общем, вы, вероятно, просто хотите использовать TokensRegex и написать шаблоны правил для обработки этих шаблонов.Больше информации здесь:

https://stanfordnlp.github.io/CoreNLP/tokensregex.html

...