Stanford-NLP Parser неправильно разбивает мое предложение - PullRequest
0 голосов
/ 14 июля 2020

Я использую Stanford Parser для синтаксического анализа моего корпуса (для машинного перевода) на деревья избирательных округов. Я могу заставить синтаксический анализатор работать нормально, как через GUI, так и через командную строку, но одна проблема, с которой я столкнулся, заключается в том, что он в основном «определяет строку».

Обычно при работе с корпусом предложение представляет собой целую строку слов, пока не дойдет до новой строки. С анализатором Stanford кажется, что предложение должно быть до «символа конца предложения», такого как точка или вопросительный знак. В некоторых ситуациях это заканчивается неправильным принятием части предложения как отдельного предложения, что увеличивает количество имеющихся у меня предложений и вызывает несоответствие с моим целевым набором данных. Есть ли способ заставить синтаксический анализатор принимать предложение до \n новой строки, или это просто так?

1 Ответ

0 голосов
/ 16 июля 2020

Если вы используете ssplit.eolonly, текст будет обрабатываться как одно предложение в строке.

...