Я написал Python код для изменения моего html содержимого. Но, записав это снова в файл html, я получаю странные шестнадцатеричные числа
import re
search="www.abc.com"
description="blah blah"
f = open('myhtml.html','r+')
content = f.read()
exp_keyword = re.compile(r'\.(\S+)\.')
reducedSearch = exp_keyword.findall(search)[0]
regexLink = re.compile(reducedSearch+r'\.'+r'.+'+'</a>',re.DOTALL)
matchregexLink = regexLink.search(content)
endOfMatch = matchregexLink.span()[1]
#slice the string
s1 = content[:endOfMatch]
s2=content[endOfMatch:]
content = s1+description+s2
print(content)
f.truncate(0)
f.write(content)
<html>
<head>
</head>
<body>
<div id="phy">
<p>
ett
</p>
<div class="links">
<ul>
<a href="www.abcd.com">
Link
</a>
<a href="www.abc.com">
Link
</a>
</ul>
</div>
</div>
</body>
</html>
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 003c 6874 6d6c 3e0a
203c 6865 6164 3e0a 203c 2f68 6561 643e
0a20 3c62 6f64 793e 0a20 203c 6469 7620
6964 3d22 7068 7922 3e0a 2020 203c 703e
0a20 2020 2065 7474 0a20 2020 3c2f 703e
0a20 2020 3c64 6976 2063 6c61 7373 3d22
6c69 6e6b 7322 3e0a 2020 2020 3c75 6c3e
0a20 2020 2020 3c61 2068 7265 663d 2277
7777 2e61 6263 642e 636f 6d22 3e0a 2020
2020 2020 4c69 6e6b 0a20 2020 2020 3c2f
613e 0a20 2020 2020 3c61 2068 7265 663d
2277 7777 2e61 6263 2e63 6f6d 223e 0a20
2020 2020 204c 696e 6b0a 2020 2020 203c
2f61 3e62 6c61 6820 626c 6168 0a20 2020
203c 2f75 6c3e 0a20 2020 3c2f 6469 763e
0a20 203c 2f64 6976 3e0a 203c 2f62 6f64
793e 0a3c 2f68 746d 6c3e 0a
Эти странные шестнадцатеричные числа - это то, что я получаю в качестве вывода. Однако, когда я печатаю content
в коде, он дает правильный ответ. Почему так? Мой ожидаемый ответ - blah blah
, написанный после закрывающего тега </a>
, содержащего ссылку www.abc.com.