Question

Я новичок в использовании BeautifulSoup и у меня есть вопрос; благодарю вас за помощь:

from bs4 import BeautifulSoup as soup
import requests

URL = 'https://www.kbb.com/car-values/'
page = requests.get(URL)
soup1 =  soup(page.content, 'html-parser')

print(soup1.prettify())

Параллельно я перешел по URL-адресу в отдельном браузере и осмотрел страницу, чтобы получить версию страницы HTML для установки шаблонов sh. Я нашел два независимых шаблона, которые отвечают моим потребностям

гггг1

и

гггг2

PS xxxx1, xxxx2, гггг1 и гггг2 - это просто строки

Я вернулся к выводу prettify () и искал шаблон xxxx1, и я нашел его, но когда я искал шаблон xxxx2, я не смог его найти? Кажется, объект супа не содержит всей информации на странице HTML? или я не смотрю на правильную HTML страницу? Я не могу догадаться, что я сделал не так и как это сделать правильно?

Спасибо

abarbatei · Answer 1 · 19 апреля 2020

Первоначально для запуска вашего кода требовалась модификация, изменив 'html -parser' на 'html .parser'. Это исправило bs4.FeatureNotFound: Не удалось найти конструктор дерева с запрашиваемыми функциями: html -парсер. Вам нужно установить библиотеку парсера?

Локально, когда я пробую ваш код, я получаю:

Access Denied
You don't have permission to access "http://www.kbb.com/" on this server.

Reference #18.afe17b5c.1587328194.c07350f

Существуют ли ограничения в некоторых странах?

Зонд с веб-скрепингом с BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Зонд с веб-скрепингом с BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов