Я должен работать с самым грязным HTML, где отдельные слова разбиты на отдельные теги, как в следующем примере:
<b style="mso-bidi-font-weight:normal"><span style='font-size:14.0pt;mso-bidi-font-size:11.0pt;line-height:107%;font-family:"Times New Roman",serif;mso-fareast-font-family:"Times New Roman"'>I</span></b><b style="mso-bidi-font-weight:normal"><span style='font-family:"Times New Roman",serif;mso-fareast-font-family:"Times New Roman"'>NTRODUCTION</span></b>
Это довольно сложно для чтения, но в основном слово "ВВЕДЕНИЕ"разделить на
<b><span>I</span></b>
и
<b><span>NTRODUCTION</span></b>
, имеющие одинаковые встроенные свойства для тегов span и b.
Какой хороший способ объединить их?Я подумал, что перебираю, чтобы найти последовательные теги b, подобные этому, но застрял на том, как мне слить последовательные теги b.
for b in soup.findAll('b'):
try:
if b.next_sibling.name=='b':
## combine them here??
except:
pass
Есть идеи?
РЕДАКТИРОВАТЬ: Ожидаемый результат следующий
<b style="mso-bidi-font-weight:normal"><span style='font-family:"Times New Roman",serif;mso-fareast-font-family:"Times New Roman"'>INTRODUCTION</span></b>