(Извините, если я не знаю правильной терминологии, я новичок в веб-очистке, пожалуйста, исправьте мою терминологию, если вам это нравится) Я работаю над проектом, чтобы соскрести изображения со всех произведений художникаучитывая URL для галереи художника.Что я делаю, так это нахожу уникальный идентификатор каждой страницы галереи, которая приведет меня к веб-странице с исходным изображением.Я уже могу соскрести со страницы искусства. Мне просто нужны идентификаторы каждой страницы из галереи.
Галерея художников -> Страница искусства -> scrape image
Идентификаторы каждой страницы на страницеСтраница галереи недоступна в исходном коде страницы, так как она загружается отдельно через JavaScript, я думаю, поэтому я не могу получить их, используя:
response = requests.get(pageurl)
print(response.text)
Но я обнаружил, что перейдя в Chrome Inspect Element> Сеть> XHR> Ответ> Заголовки> Общие, есть URL-адрес запроса, в котором есть все нужные мне идентификаторы, а ниже находится раздел «Параметры строки запроса», в котором есть все нужные мне идентификаторы. Изображение параметров строки запроса
Изображение URL запроса
Я использую BeautifulSoup, но проблема заключается только в том, как получить данные.Я также использовал urllib.request.urlopen(pageurl)
с похожими результатами.Я также пробовал Selenium, но все еще не мог получить идентификаторы, хотя я, возможно, не сделал это правильно, я смог добраться до веб-страницы, но, возможно, я не использовал правильный метод.На данный момент это то, что я хочу попробовать.РЕДАКТИРОВАТЬ: С тех пор я понял это с помощью Selenium.(Я просто не пытался достаточно усердно), но все равно хотел бы получить некоторую информацию о перехвате XHR.
Ссылка на сайт, если вы действительно хотите его видеть, но вам, возможно, придется войти в систему