StanfordCoreNLP newlineIsSentenceBreak без удаления \ n - PullRequest
0 голосов
/ 31 мая 2018

У меня есть текст для ввода

Меня зовут Раму \ n Мне 25 лет.

Я использую StanfordCoreNLP для разделения предложения.

Properties props = new Properties();
props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse");
props.put("ssplit.newlineIsSentenceBreak", "always");
props.put("threads", "24");

Это разделило мой текст на два предложения.

  1. Меня зовут Раму
  2. Мне 25 лет.

Но мне нужно сохранить \п.Мой ожидаемый результат -

  1. Меня зовут ramu \ n
  2. Мне 25 лет.

Может кто-нибудь предложить решение для этого?

1 Ответ

0 голосов
/ 01 июня 2018

Вы можете посмотреть BeforeAnnotation и AfterAnnotation, прикрепленные к CoreLabel.Это даст вам пробел до и после данного токена, который должен включать новую строку (и).В Simple API они возвращаются функциями before() и after() в предложении.

...