Как бороться с сегментированной цитатой в Stanford NLP - PullRequest
0 голосов
/ 23 декабря 2018

Многие новостные статьи используют цитаты следующим образом:

«Я пытаюсь понять, где это заканчивается», - сказал г-н Гольдштейн.«Язык становится грубее со всех сторон?»

Я знаю, что могу извлечь цитаты, используя такую ​​конфигурацию, как:

var props = new Properties();
props.setProperty("annotators", "tokenize, ssplit, quote4");
props.setProperty("customAnnotatorClass.quote4", "edu.stanford.nlp.pipeline.QuoteAnnotator");
props.setProperty("quote4.asciiQuotes", "true");
props.setProperty("quote4.attributeQuotes", "false");

var pipeline = new StanfordCoreNLP(props);

var annotation = new Annotation(text);
pipeline.annotate(annotation);
List<CoreMap> quotes = annotation.get(CoreAnnotations.QuotationsAnnotation.class);

Но, конечно, этот фрагмент дает мне 2 цитаты.

Есть ли способ получить “What I’m trying to figure out is where does it end, The language gets coarser on all sides?”?

...