Игнорировать теги XML при маркировке файла с помощью Stanford CoreNLP - PullRequest
0 голосов
/ 04 июля 2018

Я хочу пометить текстовый файл, который содержит теги XML. Однако, когда я использую тег Стэнфорда, все аннотируется, даже теги XML. Есть ли флаг или какой-либо другой параметр, который позволяет мне указать, что я хочу только аннотировать текст и что теги XML следует игнорировать? Вот что мне нужно исправить:

<h> NNP <h> O -> Эти теги следует игнорировать.

TreeTagger по умолчанию игнорирует теги XML, например.

1 Ответ

0 голосов
/ 05 июля 2018

Вместо этого вы должны использовать полный конвейер.

Тогда используйте эти аннотаторы

-annotators tokenize,cleanxml,ssplit, pos

Вы можете найти все детали по этим ссылкам:

https://stanfordnlp.github.io/CoreNLP/download.html

https://stanfordnlp.github.io/CoreNLP/cmdline.html

https://stanfordnlp.github.io/CoreNLP/api.html

...