Попробуйте найти хороший способ разбить английский документ на предложения в C # - PullRequest
1 голос
/ 17 января 2012

Есть ли хороший способ разбить английский документ на предложения?Я имею в виду, что английский документ часто включает в себя мистера миссис США и т. Д. Их трудно выделить.Нужна ли нам специальная библиотека естественных языков для этого?Я подозреваю, что нам это нужно.

Спасибо.

Ответы [ 3 ]

2 голосов
/ 17 января 2012

Технически, вам нужно полное понимание английского языка, чтобы выполнять работу.

В качестве достойного "почти" решения вы можете использовать словарь "вещей, которые заканчиваются в периоде" и разбитых на периоды, которые делаютНе следует сразу следовать одному из этих токенов.

0 голосов
/ 17 января 2012

Вы можете использовать детектор предложений , предоставляемый многочисленными инструментами НЛП, такими как OpenNLP или Stanford CoreNLP . Они могут обращаться с такими делами, как мистер миссис США и т. Д.

И OpenNLP, и Stanford CoreNLP написаны на Java.
SharpNLP - это C # (перенесено) версия OpenNLP.

0 голосов
/ 17 января 2012

Если каждое предложение начинается с заглавной буквы и заканчивается точкой, то я бы определил предложение, как указано выше, но содержит> 1 слово и не заканчивается на (общий список сокращений или регулярное выражение [a-zA-Z]. + )

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...