У меня есть текстовый документ с нумерацией типа 1., 2. et c. Я хочу извлечь предложения из документа. Я использую Stanford CoreNLP 4.0.0 и stanford-corenlp-models-current.jar. Обычное извлечение предложений извлекает числа как разные предложения. Предположим, что в документе есть
- Abcd efgh ....
- Ijkl mnop ....
При извлечении предложений 1 как предложение и Abcd efgh как другое предложение.
Аналогично 2 как предложение и Ijkl mnop как другое предложение.
Я пробую использовать свойства limitsToDiscard с разными шаблонами, но получаю тот же результат, а также получаю неправильные упоминания сущностей в этом случае.
Помогите решить эту проблему.
Заранее спасибо.