Селен: различное содержание URL между результатом селена и браузером - PullRequest
0 голосов
/ 26 января 2019

Я пытаюсь разобрать этот url

Сначала я попытался использовать requests с bs4, но страница результатов отличалась от содержимого браузера.

cont = requests.get(path).content
soup = BeautifulSoup(r, "html.parser")
print(soup.prettify())

Далее я пытаюсь использовать selenium:

def render_page(path):
    driver = webdriver.PhantomJS()
    driver.get(path)
    time.sleep(3)
    r = driver.page_source
    return r

r = render_page(path)
soup = BeautifulSoup(r, "html.parser")
print(soup.prettify())

Но он возвращает другое содержимое.Содержание страница

После этого я попытался добавить в свой код

js_code = "return document.getElementsByTagName('html').innerHTML"
your_elements = sel.execute_script(js_code)

, но это не помогло.

Так же, как и любой другойспособы получить содержимое страницы, используя requests или selenium или, может быть, какой-то другой парсер, такой же, как в браузере?

...