Я поместил код ниже тега NER
# -*- coding: utf-8 -*-
import os
java_path = "C:/Program Files/Java/jdk-13.0.2/bin/java.exe"
os.environ['JAVA_HOME'] = java_path
from nltk.tag import StanfordNERTagger
from nltk.tokenize import word_tokenize
st = StanfordNERTagger('./CRF_NER_NAGA.ser.gz','./stanford-ner.jar',encoding='utf-8')
text = 'Sajjadul Islam laga bosti to Assam te ase.'
tokenized_text = word_tokenize(text)
classified_text = st.tag(tokenized_text)
print(classified_text)
Это дает мне вывод в виде:
[('Sajjadul', 'B-PER'), ('Islam', 'I-PER'), ('laga', 'O'), ('bosti', 'O'), ('to', 'O'), ('Assam', 'B-LOC'), ('te', 'O'), ('ase', 'O'), ('.', 'O')]
Есть ли какой-нибудь возможный способ получить вывод в формате XML, например
<B-PER>Sajjadul</B-PER> <I-PER>Islam</I-PER> laga bosti to <B-LOC>Assam</B-LOC> te ase.