Можно ли получить лучшие результаты для разбора императивных предложений с помощью StanfordNLP? - PullRequest
0 голосов
/ 08 июля 2019

Я хочу найти шаблоны в структуре предложений.Поэтому я пытаюсь получить дерево разбора в качестве предварительной обработки.

До сих пор я использовал Stanford CoreNLPParser.Многие из моих предложений являются императивными предложениями.Получив гораздо больше кластеров, чем я ожидал, я просмотрел дерево разбора и обнаружил, что часто глаголы в начале моих императивных предложений были проанализированы как существительные фразы (NP).

Я нашел следующий ответ: https://stackoverflow.com/a/35887762/6068675

Так как этот ответ с 2016 года, я надеялся, что может быть другой вариант, чтобы получить лучшие результаты.Только строчные буквы каждого первого слова в предложении не выглядят идеальным решением.

Я включил несколько примеров, которые были проанализированы неправильно:

(ROOT (S (S (NP (NNP View)) (NP (NP (DT a) (NN list)) (PP (IN of) (NP (JJ ongoing) (NNS sales) (NNS quotes))) (PP (IN for) (NP (DT the) (NN customer))))) (. .)))

(ROOT (NP (NP (NN Request) (NN approval) (S (VP (TO to) (VP (VB change) (NP (DT the) (NN record)))))) (. .)))

Дальнейшие примеры

(ROOT (NP (NP (NNP View)) (CC or) (VP (VB change) (NP (NP (JJ detailed) (NN information)) (PP (IN about) (NP (DT the) (NN customer))))) (. .)))
(ROOT (FRAG (PP (IN Post) (NP (DT the) (VBN specified) (NN prepayment) (NN information))) (. .)))
(ROOT (S (S (NP (NNP View)) (NP (NP (DT a) (NN summary)) (PP (IN of) (NP (DT the) (NN debit) (CC and) (NN credit) (NNS balances))) (PP (IN for) (NP (JJ different) (NN time) (NNS periods))))) (. .)))
(ROOT (NP (NP (NP (NN Offer) (NNS items)) (CC or) (NP (NP (NNS services)) (PP (TO to) (NP (DT a) (NN customer))))) (. .)))
(ROOT (NP (NP (NP (NNP View)) (CC or) (VP (VB add) (NP (NP (NNS comments)) (PP (IN for) (NP (DT the) (NN record)))))) (. .)))

1 Ответ

0 голосов
/ 18 июля 2019

К сожалению, часть тэгера части речи обучалась в Wall Street Journal много лет назад. Таким образом, существуют проблемы, когда обязательных утверждений нет в данных обучения. Так что время от времени будет угадывать неправильно. Но на некоторых императивных заявлениях это также делает правильные вещи. Я думаю, что если первое слово - это чистый глагол типа «Позвонить», вы получите лучшую производительность.

Еще одна проблема, с которой я столкнулся, это то, что глагол "текст" (как при отправке текстового сообщения) плохо обрабатывается.

Я думаю, мы были бы рады добавить некоторые современные данные и добавить некоторые обязательные данные обучения, чтобы выручить.

...