Как я могу получить помеченный объект в формате xml в NLTK - PullRequest
1 голос
/ 20 апреля 2020

Я поместил код ниже тега NER

# -*- coding: utf-8 -*-
import os
java_path = "C:/Program Files/Java/jdk-13.0.2/bin/java.exe"
os.environ['JAVA_HOME'] = java_path

from nltk.tag import StanfordNERTagger
from nltk.tokenize import word_tokenize

st = StanfordNERTagger('./CRF_NER_NAGA.ser.gz','./stanford-ner.jar',encoding='utf-8')

text = 'Sajjadul Islam laga bosti to Assam te ase.'

tokenized_text = word_tokenize(text)
classified_text = st.tag(tokenized_text)

print(classified_text)

Это дает мне вывод в виде:

[('Sajjadul', 'B-PER'), ('Islam', 'I-PER'), ('laga', 'O'), ('bosti', 'O'), ('to', 'O'), ('Assam', 'B-LOC'), ('te', 'O'), ('ase', 'O'), ('.', 'O')]

Есть ли какой-нибудь возможный способ получить вывод в формате XML, например

<B-PER>Sajjadul</B-PER> <I-PER>Islam</I-PER> laga bosti to <B-LOC>Assam</B-LOC> te ase.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...