В моем скрипте я хочу получить данные из поиска Instagram, в моем коде Селен прокручивает результаты поиска по условию, которое я применил. но однажды, когда загрузка завершается, и я пытаюсь получить прокручиваемые данные в моем объекте bs4, он возвращает только первые результаты (между 60-70). он не получает данные, которые загружаются после прокрутки
import time
import re
import json
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chop = Options()
chop.add_argument("--disable-gpu")
chop.add_argument("--no-sandbox")
chop.add_argument("--disable-dev-shm-usage")
driver = webdriver.Chrome(executable_path="c:/Users/Haseeb-Ahmad/3D
Objects/chromedriver.exe",options=chop)
driver = webdriver.Chrome()
driver.implicitly_wait(10)
driver.get('https://www.instagram.com/accounts/login/')
emailInput = driver.find_elements_by_css_selector('form input')[0]
passwordInput = driver.find_elements_by_css_selector('form input')[1]
emailInput.send_keys('#username')
passwordInput.send_keys('#password')
passwordInput.send_keys(Keys.ENTER) #login so i can avoid the login-popup
time.sleep(5)
try:
SCROLL_PAUSE_TIME = 1
driver.get("https://www.instagram.com/explore/tags/pakistan/")
x = True
count = 0
while x == True :
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(SCROLL_PAUSE_TIME)
count = count + 1
if count > 10:
x = False
else:
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(SCROLL_PAUSE_TIME)
continue
bsObj = BeautifulSoup(driver.page_source,features='html.parser')
scripts = bsObj.find_all('script', type="text/javascript", text=re.compile('window._sharedData'))
stringified_json = scripts[0].get_text().replace('window._sharedData = ', '')[:-1]
data = json.loads(stringified_json)['entry_data']['TagPage'][0]['graphql'['hashtag'['edge_hashtag_to_media']['edges']
print(len(data)) #to chk data returned
finally:
driver.quit()