У меня есть веб-страница, которая выглядит следующим образом. Кажется, что имена классов генерируются случайным образом при каждой загрузке страницы.
Любое из следующих двух выражений XPath может извлечь «Элемент 1» из документа. Однако эти выражения хрупки и сломаются, как только изменится формат страницы.
/div/div/div/div/div/div/h3/span
//div/h3/span
Есть ли общеерешение для извлечения данных с такой страницы?
<div tabindex="0" class="styles__Header-sc-120s71t-1 bVobsP">
<h6 class="jss85xpic jsspbfkgl jssfrl2gs" style="max-width: 100%;">Title</h6>
<div class="styles__Description-sc-120s71t-2 cilEqp">
<p class="jss85xpic jsspbfkgl jssou361l" style="max-width: 100%;">Description</p>
</div>
<div class="styles__ItemsList-sc-120s71t-3 gyRIpM">
<div itemscope="" itemtype="http://schema.org/Product" role="button" tabindex="0" class="styles__Wrapper-sc-1xl58bi-2 gKTcIQ" style="max-width: 100%;">
<div class="styles__FlexContainer-sc-1xl58bi-4 bLvOGI">
<div class="styles__TextWrapper-sc-1xl58bi-9 liomPZ">
<div class="styles__Title-sc-1xl58bi-5 eqysaj">
<h3 class="jss85xpic jsspbfkgl jssws5ijf" style="max-width: 100%;"><span itemprop="name">Item 1</span></h3>
</div>
</div>
</div>
</div>
</div>
</div>