Stanford CoreNLP не может обнаружить предложения с нумерацией - PullRequest
0 голосов
/ 21 июня 2020

У меня есть текстовый документ с нумерацией типа 1., 2. et c. Я хочу извлечь предложения из документа. Я использую Stanford CoreNLP 4.0.0 и stanford-corenlp-models-current.jar. Обычное извлечение предложений извлекает числа как разные предложения. Предположим, что в документе есть

  1. Abcd efgh ....
  2. Ijkl mnop ....

При извлечении предложений 1 как предложение и Abcd efgh как другое предложение.

Аналогично 2 как предложение и Ijkl mnop как другое предложение.

Я пробую использовать свойства limitsToDiscard с разными шаблонами, но получаю тот же результат, а также получаю неправильные упоминания сущностей в этом случае.

Помогите решить эту проблему.

Заранее спасибо.

1 Ответ

0 голосов
/ 15 июля 2020

Решаю проблему. Я просто установил следующее свойство

props.setProperty("ssplit.eolonly", "true");
...