Я впервые использую библиотеку sracpy, чтобы очистить сайт с помощью селена. Я не получаю никакой ошибки, используя запрос lib, но я получаю ошибки, приведенные в блоке фрагмента кода ниже, используя urllib3 с beautifulsoup, цель состоит в том, чтобы получить необработанные данные вместо HTML-скрипта, содержащего первые 200 символов. Чтобы понять мою точку зрения, пожалуйста, ознакомьтесь с кодом, вставленным для вас. Спасибо.
Я пытался с помощью scrap запросов lib на Python извлечь данные с целевого сайта. Он работает нормально, но теперь я собираюсь выполнить задачу similir, используя urllib3 & beautifulsoup для извлечения необработанных данных вместо HTML-скрипта первых 200 символов. Я надеюсь, что это имеет смысл, если нет, пожалуйста, спросите меня. Ждем.
import requests
import urllib3
from bs4 import BeautifulSoup
# Extracting web data using requests urllib3 & BeautifulSoap
print "Retrieved the following data (Raw Form) using 'urllib3' lib \n"
http = urllib3.PoolManager()
r = http.request('GET', 'https://authoraditiagarwal.com')
soup = BeautifulSoup(r.data, 'lxml')
print soup.title
print soup.title.text
Ошибка:
File "C:\Python27\lib\site-packages\urllib3\util\retry.py", line 399, in increment
raise MaxRetryError(_pool, url, error or ResponseError(cause))
MaxRetryError: HTTPSConnectionPool(host='authoraditiagarwal.com', port=443):
Max retries exceeded with url: / (Caused by SSLError(SSLError("bad handshake:
Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify failed')],)",),))