BeautfulSoup: невозможно получить ВСЕ изображение src - PullRequest
0 голосов
/ 11 сентября 2018

Я пытаюсь получить все изображения с веб-сайта, и иногда BeautifulSoup не получает все src атрибуты из HTML.

Пример:

data = requests.get('https://www.qmedichealth.com/')
soup = BeautifulSoup(data.text, 'html.parser')
img = soup.find_all('img')

Код прост, но я не могу получить URL слайдера на этом сайте, он работает для всех изображений, кроме приведенного ниже:

<img alt="image description" style="width: 1583px; margin-left: 0px; height: 1055.33px; margin-top: -0.166667px;" src="https://cdn.shopify.com/s/files/1/0970/0888/t/3/assets/img07.jpg">

Что я на самом деле получаю: <img alt="image description"/>

Есть идеи об этом поведении?

1 Ответ

0 голосов
/ 11 сентября 2018

проверьте исходный код, который вы увидите, что src не предоставлен .. так как он обрабатывается во время выполнения, поэтому было бы полезно что-то вроде selenium

from bs4 import BeautifulSoup
from selenium import webdriver

browser = webdriver.Chrome('path to chrome driver') 
скачать драйвер Chrome здесь

http://chromedriver.chromium.org/downloads

browser.get('https://www.qmedichealth.com/')
data = BeautifulSoup(browser.page_source)

#All the Src
for src in data.find_all('img'):
    print(src['src'])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...