У меня проблемы с созданием веб-скребка для этого сайта, который интенсивно использует JavaScript.У меня есть следующий код:
from pyvirtualdisplay import Display
from selenium import webdriver
from bs4 import BeautifulSoup
display = Display(visible=0, size=(800, 600))
display.start()
browser = webdriver.Chrome()
#Page 1
url1 = 'https://www.zalora.co.id/women/pakaian/atasan/?gender=women&dir=desc&sort=popularity&category_id=704&page=1'
browser.get(url1)
soup_1 = BeautifulSoup(browser.page_source, 'html5lib')
page_script_1 = soup_1.findAll('script')[40].text
#Page 2
url2 = 'https://www.zalora.co.id/women/pakaian/atasan/?gender=women&dir=desc&sort=popularity&category_id=704&page=2'
browser.get(url2)
page_script_2 = soup.findAll('script')[40].text
soup_2 = BeautifulSoup(browser.page_source, 'html5lib')
page_script_2 = soup_2.findAll('script')[40].text
Требуемый вывод - это HTML двух разных страниц (т.е. значение в page_script_1 должно отличаться от page_script_2 )
ОДНАКО, выход в обоих случаях кажется одинаковым.Кто-нибудь знает почему?
(обратите внимание, я в основном хочу наскрести продукты на всех страницах)