Как настроить параметры токенизатора при использовании простого API-интерфейса CoreNLP? - PullRequest
0 голосов
/ 06 января 2019

Мне известны опции токенизатора, доступные в CoreNLP, и я знаю, как установить их в стандартной версии.

Есть ли способ передать опции, например, untokenizable=noneKeep, при использовании интерфейсов Simple CoreNLP?

1 Ответ

0 голосов
/ 08 января 2019

Вы можете создать документ со свойствами.

package edu.stanford.nlp.examples;

import edu.stanford.nlp.simple.*;

import java.util.*;

public class SimpleExample {

    public static void main(String[] args) {
        Properties props = new Properties();
        props.setProperty("tokenize.options", "untokenizable=allKeep");
        Document doc = new Document(props, "Joe Smith was born in California.  He moved to Chicago last year.");
        for (Sentence sent : doc.sentences()) {
            System.out.println(sent.tokens());
            System.out.println(sent.nerTags());
            System.out.println(sent.parse());
        }
    }

}
...