необходимо извлечь все ссылки (ссылка на изображение, адрес электронной почты, URL) динамической веб-страницы в python
Я пробовал модуль Python "запросы", но он работает только со статическими веб-страницами.
def get_html(url):
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get(url)
html = driver.page_source
return html
soup = BeautifulSoup(get_html(url),features="html.parser")
for anchor in soup.find_all("a"):
link = anchor.attrs["href"]
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
resp = requests.get(link,headers=headers, timeout=(2, 10))
if resp.status_code in (400,404,403,408,409,501,502,503):
isBroken = True