total_link = []
temp = ['a']
total_num = 0
while driver.find_element_by_tag_name('div'):
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
Divs=driver.find_element_by_tag_name('div').text
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
my_titles = soup.select(
'div._6d3hm > div._mck9w'
)
for title in my_titles:
try:
if title in temp:
#print('중복')
pass
else:
#print('중복이 아니다')
link = str(title.a.get("href")) #주소를 가져와!
total_link.append(link)
#print(link)
except:
pass
print("현재 모은 개수: " + str(len(total_link)))
temp = my_titles
time.sleep(2)
if 'End of Results' in Divs:
print('end')
break
else:
continue
Blockquote
Здравствуйте, я собирал данные Instagram с тегами на корейском языке.
Мой код состоит в следующем.
прокрутить страницу вниз
- используя bs4 и запросы, получите их HTML
- найдите точку, где журнал времени, картинки, текст, теги, ID
- выберите их все и сканируйте.
- после того, как это будет сделано с HTML, который находится на странице, прокрутите вниз
- делайте то же самое до конца
Делая это и используя коды людей на этом сайте, казалось, что это работает ...
но после нескольких прокручиваний, в определенных точках прокрутка останавливается с сообщением об ошибке, показывающим
'읽어 드리지 못합니다' или по-английски 'Невозможно прочитать'
Могу ли я узнать причину появления ошибки и решить ее?
Я использую питон и селен
спасибо за ваш ответ