Я пытаюсь найти лучший способ разбить текст на предложения.
Я попробовал Stanford NLP и был разочарован тем, насколько плохо он работал.
Например,
"Who are you?" asked another man.
Он распознается как два предложения: "Who are you?"
и asked another man
.
He said, "Nothing. Nothing at all."
Он распознается как два предложения:
He said, "Nothing.
и Nothing at all."
.
Я также пробовал простой ванильный Java BreakIterator.getSentenceInstance, и он не понимает никаких сокращений.Например, господин президент, он разделяется на два предложения "мистер"и "президент".Stanford NLP, тем не менее, не разделил Сэмюэля Л. Джексона или Джорджа Буша на несколько предложений.
Так что я не знаю, что еще можно попробовать.