Я пытаюсь выделить предложения из огромного количества текста. используя java, я начал с таких инструментов NLP, как OpenNLP и Stanford's Parser.
Но вот где я застреваю. хотя оба этих синтаксических анализатора довольно хороши, они терпят неудачу, когда дело доходит до неоднородного текста.
Например, в моем тексте большинство предложений отделяются точкой, но в некоторых случаях, например, пунктами, это не так. Здесь оба разбора с треском провалились.
Я даже пытался установить опцию в синтаксических анализаторах Стэнфорда для нескольких терминаторов предложений, но результат был не намного лучше!
Есть идеи ??
Редактировать : Чтобы упростить процесс, я хочу проанализировать текст, где разделителем является либо новая строка ("\ n"), либо точка (".") ...