изменить подстроку в XML-файле с помощью Python - PullRequest
1 голос
/ 19 октября 2019

Я пытаюсь изменить символы < и > в XML-файле:

    <divclass="specific_info_group">
    <divclass="specific_info_title">model</div>
    <divclass="specific_info_txt">

Я пытался заменить его на re:

        re.sub('&lt;','<',desc)
        re.sub('&gt;','>', desc)

код ничего не меняет, и я все еще получаю эти символы. Кроме того, я пытался работать с этим:

        desc.replace('&lt;','<')
        desc.replace('&gt;', '<')

, но я все еще не получаю формат html в выходном XML-файле

какое-либо решение?

1 Ответ

0 голосов
/ 19 октября 2019

Поскольку это экранированный html, вы должны использовать html-парсер для удаления.

desc = """
    &lt;divclass="specific_info_group"&gt;
    &lt;divclass="specific_info_title"&gt;model&lt;/div&gt;
    &lt;divclass="specific_info_txt"&gt;
    """

import html.parser
parser = html.parser.HTMLParser()
bla = parser.unescape(desc)

print(bla)
#    <divclass="specific_info_group">
#    <divclass="specific_info_title">model</div>
#    <divclass="specific_info_txt">
...