Непоследовательный вывод (с использованием inlineXML и BIO) из CRFClassifier stanford-nlp - PullRequest
0 голосов
/ 22 сентября 2018

Я использую Стэнфорд-нер для проекта.Мои тренировочные и тестовые файлы представлены в формате BIO.Я тренировался, используя следующую команду:

java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop <path_to_properties_file>

После обучения я комментирую тестовый файл с помощью следующей команды:

java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier <model_file> -textFile <textFile> -outputformat inlineXML

Но я получаю два вида выходных обозначений:

первый:

<B-Class1>protease</B-Class1>
<I-Class1>inhibitors</I-Class1>

, а другой:

<B-Class1>protease
inhibitors</B-Class1>

Не является ли второй ошибочным.Разве это не должно быть похоже на первый?Как получить только 1-й тип?

...