Я пытаюсь читать и редактировать HTML-файл.Я использую BeautifulSoup для редактирования html на месте, но я обнаружил, что еще до того, как «суп» был сделан, мой html файл уже был интерпретирован функцией read ().Например:
<html>
<head>
<meta http-equiv=Content-Type content="text/html; charset=us-ascii">
<meta name=Generator content="Microsoft Word 12 (filtered)">
</head>
<a href="Aug_24_2018.txt"><b>Aug 24 2018: Report</a></br>
<a href="Aug_23_2018.txt"><b>Aug 23 2018: Report</a></br>
<a href="Aug_22_2018.txt"><b>Aug 22 2018: Report</a></br>
<a href="Aug_21_2018.txt"><b>Aug 21 2018: Report</a></br>
<a href="Aug_20_2018.txt"><b>Aug 20 2018: Report</a></br>
</html>
становится следующим:
<html>
<head>
<meta http-equiv=Content-Type content="text/html; charset=us-ascii">
<meta name=Generator content="Microsoft Word 12 (filtered)">
</head>
<a href="Aug_24_2018.txt"><b>Aug 24 2018: Report</a>
<a href="Aug_23_2018.txt"><b>Aug 23 2018: Report</a>
<a href="Aug_22_2018.txt"><b>Aug 22 2018: Report</a>
<a href="Aug_21_2018.txt"><b>Aug 21 2018: Report</a>
<a href="Aug_20_2018.txt"><b>Aug 20 2018: Report</a>
</html>
, который сильно отличается, поскольку разрушает форматирование и уничтожает все домены вместе.
Это код, который я использую для чтения:
with open("/data/report.html") as inf:
txt = inf.read() #this is where the problem occurs
soup = bs4.BeautifulSoup(txt, 'lxml')
Я не вправе изменять форматирование исходного файла, поэтому я хочу максимально соответствовать емунасколько это возможно.Любые возможные решения для сохранения тега </br>
?