Так что я занимаюсь разбором сайта, который не очень хорошо спроектирован. Элементы в действительности не имеют иерархической структуры.
Есть один огромный div, который имеет следующую структуру: куча вещей, которые мне не нужны, и затем следующая структура повторяется произвольное количество раз:
h4
p
ul
(
strong
ul
)
Где все, что в скобках, может повторяться любое количество раз.
Я хочу извлечь каждый экземпляр этого шаблона, но так как нет элемента, содержащего все из них, который я могу просто выбрать, у меня возникли проблемы. Похоже, мне нужна какая-то форма поиска по регулярным выражениям, так как есть порядок, но нет иерархии.
В качестве альтернативы, было бы неплохо извлечь все между каждым h4. Это возможно с BeautifulSoup?
Есть совет? BeautifulSoup даже то, что я хочу?