Мне известны опции токенизатора, доступные в CoreNLP, и я знаю, как установить их в стандартной версии.
Есть ли способ передать опции, например, untokenizable=noneKeep, при использовании интерфейсов Simple CoreNLP?
untokenizable=noneKeep
Вы можете создать документ со свойствами.
package edu.stanford.nlp.examples; import edu.stanford.nlp.simple.*; import java.util.*; public class SimpleExample { public static void main(String[] args) { Properties props = new Properties(); props.setProperty("tokenize.options", "untokenizable=allKeep"); Document doc = new Document(props, "Joe Smith was born in California. He moved to Chicago last year."); for (Sentence sent : doc.sentences()) { System.out.println(sent.tokens()); System.out.println(sent.nerTags()); System.out.println(sent.parse()); } } }