Selenium не может поцарапать сайт электронной коммерции Shopee с помощью python - PullRequest
2 голосов
/ 21 апреля 2019

Я не могу узнать цену продуктов на Shopee (сайте электронной коммерции).
Я посмотрел на проблему, решаемую @dmitrybelyakov (ссылка: Очистка сайта электронной коммерции AJAX).используя python ).

Это решение помогло мне получить «название» продукта и «исторический_продано», но я не могу получить цену продукта.Я не могу найти значение цены в строке Json.Поэтому я попытался использовать селен для извлечения данных с помощью xpath, но это не удалось.

Ссылка на коммерческий сайт: https://shopee.com.my/search?keyword=h370m

Мой код:

import time

from selenium import webdriver

import pandas as pd

path = r'C:\Users\\admin\\Desktop\\chromedriver_win32\\Chromedriver'

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('headless')
chrome_options.add_argument('window-size=1200x600')

browserdriver = webdriver.Chrome(executable_path = path,options=chrome_options)
link='https://shopee.com.my/search?keyword=h370m'
browserdriver.get(link)
productprice='//*[@id="main"]/div/div[2]/div[2]/div/div/div/div[2]/div/div/div[2]/div[1]/div/a/div/div[2]/div[1]'
productprice_printout=browserdriver.find_element_by_xpath(productname).text
print(productprice_printout)

Когда я запускал этот код, он отображал сообщение об ошибке, например:

selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"//*[@id="main"]/div/div[2]/div[2]/div/div/div/div[2]/div/div/div[2]/div[1]/div/a/div/div[2]/div[1]"}

Пожалуйста, помогите мне узнать цену продукта на Shopee!

Ответы [ 3 ]

3 голосов
/ 21 апреля 2019

Вы можете использовать запросы и API поиска для сайта

import requests

headers = {
    'User-Agent': 'Mozilla/5',
    'Referer': 'https://shopee.com.my/search?keyword=h370m'
}

url = 'https://shopee.com.my/api/v2/search_items/?by=relevancy&keyword=h370m&limit=50&newest=0&order=desc&page_type=search'  
r = requests.get(url, headers = headers).json()

for item in r['items']:
    print(item['name'], ' ', item['price'])

Если вы хотите примерно такой же масштаб:

for item in r['items']:
    print(item['name'], ' ', 'RM' + str(item['price']/100000))
1 голос
/ 22 апреля 2019

Для извлечения цены на продукты Shopee с использованием Selenium и Python вы можете использовать следующее решение:

  • Блок кода:

    from selenium import webdriver
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.common.by import By
    from selenium.webdriver.support import expected_conditions as EC
    
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    options.add_argument('start-maximized')
    options.add_argument('disable-infobars')
    options.add_argument('--disable-extensions')
    browserdriver = webdriver.Chrome(chrome_options=options, executable_path=r'C:\WebDrivers\chromedriver.exe')
    browserdriver.get('https://shopee.com.my/search?keyword=h370m')
    WebDriverWait(browserdriver, 20).until(EC.element_to_be_clickable((By.XPATH, "//div[@class='shopee-modal__container']//button[text()='English']"))).click()
    print([my_element.text for my_element in WebDriverWait(browserdriver, 20).until(EC.visibility_of_all_elements_located((By.XPATH, "//span[text()='RM']//following::span[1]")))])
    print("Program Ended")
    
  • Выход на консоль:

    ['430.00', '385.00', '435.00', '409.00', '479.00', '439.00', '479.00', '439.00', '439.00', '403.20', '369.00', '420.00', '479.00', '465.00', '465.00']
    Program Ended
    
0 голосов
/ 21 апреля 2019

При посещении сайта. Я сталкиваюсь с этим всплывающим окном https://gyazo.com/0a9cd82e2c9879a1c834a82cb15020bd. Я предполагаю, почему селен не может обнаружить искомый путь, потому что это всплывающее окно блокирует элемент.

сразу после начала сеанса селена, попробуйте это:

popup=browserdriver.find_element_by_xpath('//*[@id="modal"]/div[1]/div[1]/div/div[3]/button[1]')
popup.click()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...