Не удается получить содержимое тега с помощью xpath - PullRequest
0 голосов
/ 21 декабря 2018

Я пытаюсь получить значение «Вес отправления» (т.е. 4,65 фунта) со страницы Amazon, вот эта часть (от https://www.amazon.com/dp/B0018RSEMU):

<div class="a-row a-spacing-top-base">  
  <div class="a-column a-span6">  
    <div class="a-row a-spacing-base">  

        <div class="a-section table-padding">  
          <table id="productDetails_detailBullets_sections1" class="a-keyvalue prodDetTable" role="presentation">  

                      <tr>  
                          <th class="a-color-secondary a-size-base prodDetSectionEntry">  
                          Shipping Weight  
                          </th>  

                          <td class="a-size-base">   
                        4.65 pounds (<a href="https://www.amazon.com/gp/help/seller/shipping.html/ref=dp_pd_shipping?_encoding=UTF8&amp;seller=ATVPDKIKX0DER&amp;asin=B0018RSEMU">View shipping rates and   policies</a>)  
                        </td>  
                        </tr>                            
                        ......

Я кодирую вот так:

from lxml import html   
import requests  
headers = {'User-Agent': '...'}  
page = requests.get(url, headers = headers)  

doc = html.fromstring(page.content)  
XPATH_WEIGHT = '//th[contains(text(),"Shipping Weight")]/following-sibling::td/text()'  
RAW_WEIGHT = doc.xpath(XPATH_WEIGHT)  

после запуска ничего не возвращает. В чем проблема? С тем же синтаксисом я могу правильно получить текст другого тега. Так что запутался здесь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...