Запросы BeautifulSoup получают фрейм HTML, но не могут получить доступ к элементам - PullRequest
0 голосов
/ 08 января 2019

В настоящее время я работаю на VRM, используя Ubuntu; поэтому я пытаюсь собрать данные из электронной коммерции в качестве теста. Пока что я могу загрузить содержимое HTML; но я не могу получить доступ ни к одному из тегов. Я проверил другой похожий пост на эту проблему, включив заголовок; и т. д.

from requests import get
from bs4 import BeautifulSoup

url = 'https://shopee.com.my/'

headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0'}

response = get(url, headers=headers)
html_soup = BeautifulSoup(response.text, 'html.parser')


def findDiv():
    for container in html_soup.find_all('div'):
        print(container)
        print(container.div)
        #returns None#

print(findDiv())

Тем не менее, он по-прежнему не будет загружать ничего, кроме двух тегов div, которые <main> & <modal> Похожие сообщения

1 Ответ

0 голосов
/ 08 января 2019

Для динамической страницы вы должны использовать Selenium или использовать Bot user-agent для requests, чтобы проверить элемент, установить расширение Chrome для изменения user-agent или сохранить исходный код страницы

headers = {'User-Agent': 'Googlebot/2.1 (+http://www.google.com/bot.html)'}
response = get(url, headers=headers)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...