Я пытаюсь получить все ссылки, связанные с каждым изображением на этой веб-странице .
Я могу получить все ссылки, если позволю селеновому скрипту прокручиваться вниз, пока не достигнет дна. Одна такая ссылка, которую я sh могу очистить, - это , эта .
Теперь моя цель - проанализировать все эти ссылки с помощью запросов. Я заметил, что ссылки, которые я хочу проанализировать, построены с использованием такого короткого кода B-uPwZsJtnB
.
Однако я пытаюсь очистить те разные shortcode
, доступные в теге скрипта, найденном в исходном коде этой веб-страницы. На этой странице около 600 shortcodes
. Сценарий, который я создал, может анализировать только первые 70
такие shortcode
, что в конечном итоге может создать 70 квалифицированных ссылок.
Как я могу получить все 600 ссылок с помощью запросов?
Я пробовал до сих пор с:
import re
import json
import requests
base_link = 'https://www.instagram.com/p/{}/'
lead_url = 'https://www.instagram.com/explore/tags/baltimorepizza/'
with requests.Session() as s:
s.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'
req = s.get(lead_url)
script_tag = re.findall(r"window\._sharedData[^{]+(.*?);",req.text)[0]
for item in json.loads(script_tag)['entry_data']['TagPage']:
tag_items = item['graphql']['hashtag']['edge_hashtag_to_media']['edges']
for elem in tag_items:
profile_link = base_link.format(elem['node']['shortcode'])
print(profile_link)