(Python) Как найти URL-адрес запроса с веб-страницы в элементе проверки Chrome> Сеть> XHR> Ответ> Заголовки> Общие - PullRequest
0 голосов
/ 16 июня 2019

(Извините, если я не знаю правильной терминологии, я новичок в веб-очистке, пожалуйста, исправьте мою терминологию, если вам это нравится) Я работаю над проектом, чтобы соскрести изображения со всех произведений художникаучитывая URL для галереи художника.Что я делаю, так это нахожу уникальный идентификатор каждой страницы галереи, которая приведет меня к веб-странице с исходным изображением.Я уже могу соскрести со страницы искусства. Мне просто нужны идентификаторы каждой страницы из галереи.

Галерея художников -> Страница искусства -> scrape image

Идентификаторы каждой страницы на страницеСтраница галереи недоступна в исходном коде страницы, так как она загружается отдельно через JavaScript, я думаю, поэтому я не могу получить их, используя:

response = requests.get(pageurl)
print(response.text)

Но я обнаружил, что перейдя в Chrome Inspect Element> Сеть> XHR> Ответ> Заголовки> Общие, есть URL-адрес запроса, в котором есть все нужные мне идентификаторы, а ниже находится раздел «Параметры строки запроса», в котором есть все нужные мне идентификаторы. Изображение параметров строки запроса

Изображение URL запроса

Я использую BeautifulSoup, но проблема заключается только в том, как получить данные.Я также использовал urllib.request.urlopen(pageurl) с похожими результатами.Я также пробовал Selenium, но все еще не мог получить идентификаторы, хотя я, возможно, не сделал это правильно, я смог добраться до веб-страницы, но, возможно, я не использовал правильный метод.На данный момент это то, что я хочу попробовать.РЕДАКТИРОВАТЬ: С тех пор я понял это с помощью Selenium.(Я просто не пытался достаточно усердно), но все равно хотел бы получить некоторую информацию о перехвате XHR.

Ссылка на сайт, если вы действительно хотите его видеть, но вам, возможно, придется войти в систему

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...