Я пытаюсь очистить сайт, который имеет ссылки на Amazon с Python, используя эти фреймворки - селен, красивый суп.
Моя цель - очистить следующие детали продуктов Amazon -> Название, Цена, Описание, Первый обзор
Но мне трудно работать с селекторами Beautiful. Я перепробовал много комбинаций, но либо получаю нулевой вывод, либо Error, к сожалению, не так Pro.Основная проблема заключается в том, что Beautiful soup не имеет селекторов XPath (AFAIK).Должен ли я перейти к scrapy для этой задачи, или scraping слишком много для этого простого скребка?
Это для первого продукта, который я повторю позже
from bs4 import BeautifulSoup
from selenium import webdriver
import time
driver.get('https://www.example.com')
driver.get('https://www.example.com')
first_article = driver.find_element_by_css_selector('div.button')
first_article.click()
html = driver.page_source
soup = BeautifulSoup(html, 'lxml')
# perform the operation
После этого у меня естьвыбрать соответствующий путь, но как их сделать?В Xpath есть что-то вроде этого,
Title = '//h1[@id="title"]//text()'
Price = '//span[contains(@id,"ourprice") or contains(@id,"saleprice")]/text()'
Category = //a[@class="a-link-normal a-color-tertiary"]//text()'
Но подробностей о товаре и пути к первому обзору только я пока не могу.Я думаю, что селекторы Beautiful Soup find_all здесь не помогут.