Как очистить сайты на основе названия сайта с помощью Python? - PullRequest
0 голосов
/ 04 мая 2019

Я работаю над очисткой сайтов для сайтов, которые содержат определенный заголовок. Как бы мне это сделать, например, проверить «example.com/xxxxxxxxxx», где «x» - это случайное число, если у него заголовок 404 или нет?

1 Ответ

0 голосов
/ 04 мая 2019

Находит заголовок страницы:

import requests
from lxml.html import fromstring

def Get_PageTitle(url):
    req = requests.get(url)
    tree = fromstring(req.content)
    title = tree.findtext('.//title')
    return title


url = "http://www.google.com"
title = Get_PageTitle(url)

if "404" in title:
    #title has 404
    print("Title has 404 in it")

else:
    #no 404 in title
    pass

Редактировать:

Приведенный выше код проверяет, имеет ли заголовок 404 в Это.Если вы хотите узнать, является ли заголовок 404, используйте этот код:

import requests
from lxml.html import fromstring

def Get_PageTitle(url):
    req = requests.get(url)
    tree = fromstring(req.content)
    title = tree.findtext('.//title')
    return title


url = "http://www.google.com"
title = Get_PageTitle(url)

if "404" is title:
    #title is 404
    print("Title is 404 in it")
    print(title)

else:
    #title is not 404
    pass

Как получить заголовок страницы в запросах

...