Selenium webdriver page_source не дает весь контент после scrolled_down - PullRequest
0 голосов
/ 20 июня 2020

Я пытаюсь очистить твиттер-сайт, есть длинный список комментариев, поэтому, используя селен, я прокрутил вниз до конца:

from selenium import webdriver
import time

driver = webdriver.Firefox()
driver.get(url)
for i in range(30):
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(2)

Теперь, когда я пытаюсь получить элементы по имени тега, article все теги не захватываются.

> len(driver.find_elements_by_tag_name('article'))
16

Когда я прокручиваю страницу вручную и пробую тот же код

> len(driver.find_elements_by_tag_name('article'))
20

То же самое и для page_source. Когда я сохраняю driver.page_source в файл и открываю этот файл для поиска существующего имени пользователя twitter, имя не найдено . Присутствуют только имена пользователей в конце html.

Сначала я подумал, что это может быть проблема браузера. Затем я попробовал то же самое с ChromeDriver. Но результаты были похожи.

...