Я управляю проектом очистки веб-страниц, который удаляет с веб-сайтов без JavaScript, в этом случае я использую библиотеку запросов, а веб-сайты с Javascript, и в этом случае я использую Selenium и Chromedriver.Однако Selenium работает очень медленно, и я считаю, что на веб-сайтах javascript есть версии с отключенным javascript, которые содержат все данные, которые мне нужны.Как загрузить версию веб-страницы с отключенным JavaScript без использования Selenium?
Это один из сайтов: https://www.sainsburys.co.uk/shop/gb/groceries
Например, я хочу извлечь все продукты изследующая страница:
https://www.sainsburys.co.uk/shop/gb/groceries/bakery/all-cakes---tarts#langId=44&storeId=10151&catalogId=10123&categoryId=340930&parent_category_rn=12320&top_category=12320&pageSize=36&orderBy=FAVOURITES_ONLY%7CSEQUENCING%7CTOP_SELLERS&searchTerm=&beginIndex=0
Для этого я использую xpath "// div [@ id = 'productLister'] / ul [содержит (@class, 'productLister')] / li / div [содержит (@class, 'product')] "
Если вы загрузите страницу в своем браузере с помощью Javascript, этот селектор будет работать без проблем.
Если вы отключитеjavascript на веб-странице с использованием расширения браузера (я использую Quick Javascript Switcher для Chrome), вы можете видеть, что продукты по-прежнему загружаются, и вы все еще можете использовать селектор.Это означает, что у Sainsbury's есть версия веб-страницы с отключенным javascript, которая по-прежнему содержит все необходимые мне данные.
Однако, если я пытаюсь использовать запросы и этот xpath для извлечения данных, это неработа.