Я хотел бы перебрать html и сохранить данные в словаре.Каждая итерация начинается с:
<h1 class="docDisplay" id="docTitle">
У меня есть следующий код:
html = '<html><body><h1 class="docDisplay" id="docTitle">Data1</h1><p>other data<\p><h1 class="docDisplay" id="docTitle">Data2</h1><p>other data2<\p></html>'
soup=BeautifulSoup(html)
newdoc = soup.find('h1', id="docTitle")
title = newdoc.findNext(text=True)
data = title.findAllNext('p',text=True)
data_dict = {}
data_dict[title] = {'data': data}
print data_dict
Прямо сейчас вывод:
{u'Data1': {'data': [u'other data<\\p>', u'Data2', u'other data2<\\p>']}}
Я хотел бы выводбыть:
{u'Data1': {'data': [u'other data<\\p>']}, u'Data2': {'data': [u'other data2<\\p>']}}
Я не могу понять, как начать снова, как только я достигну нового тега h1.Есть идеи?