Извлечение данных из HTML со случайными именами классов - PullRequest
0 голосов
/ 26 октября 2019

У меня есть веб-страница, которая выглядит следующим образом. Кажется, что имена классов генерируются случайным образом при каждой загрузке страницы.

Любое из следующих двух выражений XPath может извлечь «Элемент 1» из документа. Однако эти выражения хрупки и сломаются, как только изменится формат страницы.

  • /div/div/div/div/div/div/h3/span
  • //div/h3/span

Есть ли общеерешение для извлечения данных с такой страницы?

<div tabindex="0" class="styles__Header-sc-120s71t-1 bVobsP">
    <h6 class="jss85xpic jsspbfkgl jssfrl2gs" style="max-width: 100%;">Title</h6>
    <div class="styles__Description-sc-120s71t-2 cilEqp">
        <p class="jss85xpic jsspbfkgl jssou361l" style="max-width: 100%;">Description</p>
    </div>
    <div class="styles__ItemsList-sc-120s71t-3 gyRIpM">
        <div itemscope="" itemtype="http://schema.org/Product" role="button" tabindex="0" class="styles__Wrapper-sc-1xl58bi-2 gKTcIQ" style="max-width: 100%;">
            <div class="styles__FlexContainer-sc-1xl58bi-4 bLvOGI">
                <div class="styles__TextWrapper-sc-1xl58bi-9 liomPZ">
                    <div class="styles__Title-sc-1xl58bi-5 eqysaj">
                        <h3 class="jss85xpic jsspbfkgl jssws5ijf" style="max-width: 100%;"><span itemprop="name">Item 1</span></h3>
                    </div>
               </div>
           </div>
       </div>
   </div>
</div>
...