Как использовать StanfordCoreNLP для преобразования китайского Penn Treebank (s-выражение) в формат CONLL? - PullRequest
0 голосов
/ 13 апреля 2019

У меня есть банк деревьев китайского избирательного округа в формате Penn Treebank (s-выражение), и я хочу получить данные в формате conll.Я знаю, что английские данные могут быть преобразованы StanfordCoreNLP с помощью этой команды

java -mx1g edu.stanford.nlp.trees.ud.UniversalDependenciesConverter -treeFile treebank > treebank.conllu

И я также знаю, что StanfordCoreNLP поддерживает выбор модели китайского языка с помощью команды

java -mx3g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-chinese.properties -file chinese.txt -outputFormat text

Когда я использую команду

java -mx3g -cp "*" edu.stanford.nlp.trees.ud.UniversalDependenciesConverter -props StanfordCoreNLP-chinese.properties -treeFile chtb_0001.nw > chtb_0001_nw.conllu

Ничего не изменилось, в этом случае инструменты StanfordCoreNLP по-прежнему выбирают английскую модель, а не китайскую модель.Я не могу получить более подробную информацию с домашней страницы StanfordCoreNLP.поэтому я хочу получить помощь от StackoverFlow.

1 Ответ

1 голос
/ 14 апреля 2019

Я думаю, что это будет работать:

java -Xmx1g edu.stanford.nlp.trees.international.pennchinese.UniversalChineseGrammaticalStructure -treeFile ctb_example.txt -checkConnected -basic -keepPunct -conllx
...