Как использовать Python urllib.request для Web Scrapping 2018 - PullRequest
0 голосов
/ 04 мая 2018

Я написал простой сценарий из видеоурока:

import bs4 as bs
import urllib.request

source = urllib.request.urlopen('https://pythonprogramming.net/parsememcparseface/').read()

soup = bs.BeautifulSoup(source, 'lxml')

print(source)

И это возвращает эту ошибку, когда я запускаю программу:

Traceback (most recent call last):
  File "/Users/UntouchedDruid4/Projects/Web_Scrapper/app.py", line 4, in <module>
    source = urllib.request.urlopen('https://pythonprogramming.net/parsememcparseface/').read()
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/urllib/request.py", line 223, in urlopen
    return opener.open(url, data, timeout)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/urllib/request.py", line 526, in open
    response = self._open(req, data)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/urllib/request.py", line 544, in _open
    '_open', req)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/urllib/request.py", line 504, in _call_chain
    result = func(*args)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/urllib/request.py", line 1361, in https_open
    context=self._context, check_hostname=self._check_hostname)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/urllib/request.py", line 1320, in do_open
    raise URLError(err)
urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:777)>

И я понятия не имею, что это значит. Пожалуйста помоги.

1 Ответ

0 голосов
/ 04 мая 2018

используйте urllib2 или запросы, а для очистки используйте re.search или BeautifulSoup As You Want

import urllib2
from bs4 import BeautifulSoup
import re

read = urllib2.urlopen('https://pythonprogramming.net/parsememcparseface/').read()

Использование RE.SEARCH

f = re.search(r'<title>(.*)</title>', read)
title = f.group(1)
print " Title Of the Site Is : " + title 

с использованием BeautifulSoup

soup = BeautifulSoup(read, 'html.parser')
print soup.title ## Example For Title

Это только пример для заголовка

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...