У меня есть HTML-страница, которая выглядит так:
<div>
<h1>First Item</h1>
<p> the text I want </p>
</div>
<div>
<h1>Second Item</h1>
<p> the text I don't want </p>
</div>
Заголовок «Первый элемент» может находиться на разных уровнях тегов на каждой странице, поэтому индекс не является фиксированным.
Я хочу, чтобы какая-то выборка выглядела как (это псевдокод).
from lxml import html
locate_position = locate(html.xpath(//div/h1[contains("First Item")])))
scrape = html.xpath(//div[locate_position]/p)