Я перебираю страницу и обнаружил, что с моими методами xpath и regex я не могу получить набор значений, которые находятся внутри класса div
Я пробовал метод, изложенный здесь на этой странице
Как получить все теги li в теге div
а затем текущая логика, показанная ниже, в моем файле
#PRODUCT ATTRIBUTES (STYLE, SKU, BRAND) need to figure out how to loop thru a class and pull out the 2 list tags
prodattr = re.compile(r'<div class=\"pdp-desc-attr spec-prod-attr\">([^<]+)</div>', re.IGNORECASE)
prodattrmatches = re.findall(prodattr, html)
for m in prodattrmatches:
m = re.compile(r'<li class=\"last last-item\">([^<]+)</li>', re.IGNORECASE)
stymatches = re.findall(m, html)
#STYLE
sty = re.compile(r'<li class=\"last last-item\">([^<]+)</li>', re.IGNORECASE)
stymatches = re.findall(sty, html)
#BRAND
brd = re.compile(r'<li class=\"first first-item\">([^<]+)</li>', re.IGNORECASE)
brdmatches = re.findall(brd, html)
Выше приведен текущий код, который НЕ работает .. все возвращается пустым. В целях моего тестирования я просто записываю данные, если таковые имеются, в команду печати, чтобы я мог видеть их на консоли ..
itmDetails2 = dets['sku'] +","+ dets['description']+","+ dets['price']+","+ dets['brand']
и в консоли это то, что я получаю, именно этого я и ожидаю, а общие сообщения являются просто заполнителями, пока я не выясню эту логику.
SKUE GOES HERE,adidas Women's Essentials Tricot Track Jacket,34.97, BRAND GOES HERE
<div class="pdp-desc-attr spec-prod-attr">
<ul class="prod-attr-list">
<li class="first first-item">Brand: adidas</li>
<li>Country of Origin: Imported</li>
<li class="last last-item">Style: F18AAW400D</li>
</ul>
</div>