ОК. Я пытался разобрать тег
html, который содержит другие теги и текст
, например,
, если у меня был этот HTML (да, я знаю, используя <b>
и <i>
плохо, но это просто для примера)
<p> <b> 1 </b> Apple <b> 2 </b> <i> Orange </i> <b> 3 </b> Pineapple </p>
Это может сделать что-то вроде этого
1 Apple 2 Оранжевый 3 Ананас
Как получить отношение
{"1": "Apple", "2": "<i> Orange </i>, "3": "Pineapple"}
Я пытался использовать beautifulsoup tag.next, но это не таквместо этого возвращается теги, он останавливается
Я пытался использовать BeautifulSoup tag.find(text = True, recursive = False)
не возвращает ничего, кроме \n
Я пытался tags.findAll("b")
for i in b:
print i.text
print tags.find(i).text
Я посмотрел парсинговые теги в тегах, и ничего не получилось, если бы подходили некоторые регулярные выражения (звучит как проблема), а некоторые говорили, что это невозможно (не очень полезно)
Я думаю, что мне нужноузнать, как это сделать, это получить HTML между двумя тегами.Я попытался перебрать бит .nextSibling, который в итоге дал мне пространство юникода, поэтому не могу продолжать перебирать.
У кого-нибудь есть опыт с этим?