Мне нужно разобрать HTML-документ, который содержит теги "code"
Я получаю блоки кода, подобные этим:
soup = BeautifulSoup(str(content))
code_blocks = soup.findAll('code')
Проблема в том, если у меня есть кодтег, подобный этому:
<code class="csharp">
List<Person> persons = new List<Person>();
</code>
BeautifulSoup вызывает закрытие вложенных тегов и преобразует блок кода в:
<code class="csharp">
List<person> persons = new List</person><person>();
</person>
</code>
Есть ли способ извлечь содержимое тегов кода в виде текстас BeautifulSoup, не позволяя ему исправить то, что ИТ-специалисты считают ошибками HTML-разметки?