Python BeautifulSOUP найти текст в HTML - PullRequest
0 голосов
/ 25 августа 2018

Я пытаюсь выполнить поиск в Google по ключевому слову, просмотреть все результаты и найти текст, похожий на "</div>" "<!DOCTYPE>" или что-то еще, он получает HTML, но мой if всегда говорит, что div не существует на любом сайте.

Код:

from google import google
import urllib.request
from bs4 import BeautifulSoup


def google_scrape(url):
    thepage = urllib.request.urlopen(url)
    soup = BeautifulSoup(thepage, "html.parser")
    return soup.html

i = 1
query = 'תקליטן'
for url in google.search(query, 10):
    print("Trying : %s" % (url.link))
    try :
        html = google_scrape(url.link)
        if "</div>" in html:
            print("He have it")
        else:
            print("He doesnt have it")
    except Exception as e: print(e)
    #print(url.link)

Ответ:

Trying : https://www.youtube.com/?hl=iw&gl=IL    
He doesnt have it    
Trying : None

Объект 'NoneType' не имеет атрибута 'timeout'

Trying : https://he.wikipedia.org/wiki/%D7%99%D7%95%D7%98%D7%99%D7%95%D7%91    
He doesnt have it    
Trying : https://en.wikipedia.org/wiki/YouTube    
He doesnt have it    
Trying : https://www.facebook.com/youtube/
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...