Я унаследовал несколько тысяч грязных HTML файлов, которые используют повторяющиеся теги blockquote
для отображения строк стихов.
Пример:
<blockquote><blockquote>roses are red</blockquote></blockquote><br>
<blockquote><blockquote><blockquote>violets are blue</blockquote></blockquote></blockquote><br>
<blockquote><blockquote>this is another line</blockquote></blockquote><br>
<blockquote><blockquote><blockquote>and this is too</blockquote></blockquote></blockquote><br>
Для строк бесплатного стиха вы увидите целых 7-8 тегов блочных кавычек, обертывающих строку текста. Я хочу заменить набор вложенных тегов blockquote
одним тегом <p>
или <span>
и присвоить ему класс, например «indent-7» или «indent-8».
Есть непредсказуемый пробел между тегами blockquote
. У некоторых есть пробелы между ними, некоторые разделены новыми строками. Я думаю, что BeautifulSoup Python - это способ справиться с этой задачей.
Как заменить вложенные теги blockquote
одним тегом с классом «n», где n - это количество тегов, которые были вложенный