Как исправить ошибки Python Scrapy, связанные с https соединением poolmanager, чтобы получить необработанные данные с веб-страницы - PullRequest
0 голосов
/ 19 мая 2019

Я впервые использую библиотеку sracpy, чтобы очистить сайт с помощью селена. Я не получаю никакой ошибки, используя запрос lib, но я получаю ошибки, приведенные в блоке фрагмента кода ниже, используя urllib3 с beautifulsoup, цель состоит в том, чтобы получить необработанные данные вместо HTML-скрипта, содержащего первые 200 символов. Чтобы понять мою точку зрения, пожалуйста, ознакомьтесь с кодом, вставленным для вас. Спасибо.

Я пытался с помощью scrap запросов lib на Python извлечь данные с целевого сайта. Он работает нормально, но теперь я собираюсь выполнить задачу similir, используя urllib3 & beautifulsoup для извлечения необработанных данных вместо HTML-скрипта первых 200 символов. Я надеюсь, что это имеет смысл, если нет, пожалуйста, спросите меня. Ждем.

import requests
import urllib3
from bs4 import BeautifulSoup

# Extracting web data using requests urllib3 & BeautifulSoap

print "Retrieved the following data (Raw Form) using 'urllib3' lib \n"
http = urllib3.PoolManager()
r = http.request('GET', 'https://authoraditiagarwal.com')
soup = BeautifulSoup(r.data, 'lxml')
print soup.title
print soup.title.text

Ошибка:

File "C:\Python27\lib\site-packages\urllib3\util\retry.py", line 399, in increment
    raise MaxRetryError(_pool, url, error or ResponseError(cause))
MaxRetryError: HTTPSConnectionPool(host='authoraditiagarwal.com', port=443): 
Max retries exceeded with url: / (Caused by SSLError(SSLError("bad handshake: 
Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify failed')],)",),))
...