Я пытаюсь следовать этому руководству , чтобы узнать о веб-очистке. Поскольку я использую Python3, я пытался использовать urllib
вместо urllib2
, чтобы попытаться правильно запросить URL:
from urllib import request
# tried import urllib
# tried import urllib.request
url = "http://www.bloomberg.com/quote/SPX:IND"
raw_html = request.urlopen(url)
Казалось, ничто не открывало URL правильно, и я получил бы эту ошибку:
urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed.
Я нашел потенциальное решение, но ничего в сообщении не упоминает такую ошибку.
В конечном счете, я действительно хочу использовать библиотеку запросов Python .
import requests
url = "http://www.bloomberg.com/quote/SPX:IND"
raw_html = requests.get(url)
# get in BeautifulSoup format
processed_html = BeautifulSoup(raw_html.content, "html.parser")
# print('processed_html = ', processed_html)
h1 = processed_html.findAll("h1")
print('h1 = ', h1)
Проблема в том, что я вернул бы только тег h1 Bloomberg, но на веб-странице есть другие теги h1. Когда я смотрю на processed_html
, некоторых тегов и классов там нет.
Мне бы очень хотелось решить проблему с библиотекой запросов, но любая помощь или направление приветствуются.