Я использую Стэнфорд-нер для проекта.Мои тренировочные и тестовые файлы представлены в формате BIO.Я тренировался, используя следующую команду:
java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop <path_to_properties_file>
После обучения я комментирую тестовый файл с помощью следующей команды:
java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier <model_file> -textFile <textFile> -outputformat inlineXML
Но я получаю два вида выходных обозначений:
первый:
<B-Class1>protease</B-Class1>
<I-Class1>inhibitors</I-Class1>
, а другой:
<B-Class1>protease
inhibitors</B-Class1>
Не является ли второй ошибочным.Разве это не должно быть похоже на первый?Как получить только 1-й тип?