Instagram ползет с прокруткой вниз ... с селеном питона - PullRequest
0 голосов
/ 10 мая 2018
total_link = []

temp = ['a']

total_num = 0

while driver.find_element_by_tag_name('div'):
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    Divs=driver.find_element_by_tag_name('div').text


    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    my_titles = soup.select(
    'div._6d3hm > div._mck9w'
    )

    for title in my_titles:
        try:
            if title in temp:
                #print('중복')
                pass
            else:
                #print('중복이 아니다')
                link = str(title.a.get("href")) #주소를 가져와!
                total_link.append(link)
                #print(link)

        except:
            pass
    print("현재 모은 개수: " + str(len(total_link)))

    temp = my_titles
    time.sleep(2)
    if 'End of Results' in Divs:
        print('end')
        break
    else:
        continue

Blockquote Здравствуйте, я собирал данные Instagram с тегами на корейском языке. Мой код состоит в следующем.

  1. прокрутить страницу вниз

    1. используя bs4 и запросы, получите их HTML
    2. найдите точку, где журнал времени, картинки, текст, теги, ID
    3. выберите их все и сканируйте.
    4. после того, как это будет сделано с HTML, который находится на странице, прокрутите вниз
    5. делайте то же самое до конца

    Делая это и используя коды людей на этом сайте, казалось, что это работает ... но после нескольких прокручиваний, в определенных точках прокрутка останавливается с сообщением об ошибке, показывающим

    '읽어 드리지 못합니다' или по-английски 'Невозможно прочитать'

    Могу ли я узнать причину появления ошибки и решить ее? Я использую питон и селен спасибо за ваш ответ

...