Я использую Stanford Parser для синтаксического анализа моего корпуса (для машинного перевода) на деревья избирательных округов. Я могу заставить синтаксический анализатор работать нормально, как через GUI, так и через командную строку, но одна проблема, с которой я столкнулся, заключается в том, что он в основном «определяет строку».
Обычно при работе с корпусом предложение представляет собой целую строку слов, пока не дойдет до новой строки. С анализатором Stanford кажется, что предложение должно быть до «символа конца предложения», такого как точка или вопросительный знак. В некоторых ситуациях это заканчивается неправильным принятием части предложения как отдельного предложения, что увеличивает количество имеющихся у меня предложений и вызывает несоответствие с моим целевым набором данных. Есть ли способ заставить синтаксический анализатор принимать предложение до \n
новой строки, или это просто так?