Как классифицировать эти сайты как нерабочие? - PullRequest
0 голосов
/ 22 марта 2019

Я разрабатываю программу, которая проверяет, работает ли веб-сайт или нет.Я извлекаю URL-адреса из таблицы Excel, а затем вставляю результаты как Истинные (рабочие) и Ложные (нерабочие) в одну и ту же таблицу Excel, но для некоторых URL-адресов, таких как http://www.andrewelliotgroup.com/ и https://www.sovranollc.com/, показывает, что сайт работает, но на сайте нет данных.Я хочу отфильтровать эти типы сайтов без данных в нерабочие категории.Помимо использования кода статуса, что еще KPI я могу использовать, чтобы доказать это.Вот код:

import http.client as httpc
from urllib.parse import urlparse
import pandas as pd
import xlwings as xw
import smtplib
from xlsxwriter import Workbook
from xlutils import copy
import socket
import requests
from bs4 import BeautifulSoup as BS

socket.getaddrinfo('172.23.24.143', 8080)

x=[]

df = pd.read_excel (r'xyz.xlsx')
df1=pd.DataFrame(df,columns=['URL'])
print(df1)
url_list=df["URL"].tolist()
print(url_list)


for i in url_list:
    def checkUrl(i):
    if 'http' not in i:
        i= 'https://'+i
    p = urlparse(i)
    if (p.scheme == 'http'):
        conn = httpc.HTTPConnection(p.netloc,timeout=15)
    else:
        conn = httpc.HTTPSConnection(p.netloc,timeout=15)
    try:
        conn.request('HEAD', p.path)
        resp = conn.getresponse()
        return resp.status<400:
    except OSError:
        return False
print(checkUrl(i))
x.append(checkUrl(i)) 

workbook = Workbook('xyz.xlsx')
Report_Sheet = workbook.add_worksheet()
Report_Sheet.write(0, 1, 'Value')
Report_Sheet.write_column(1, 1, x)
Report_Sheet.write(0,0,'URL')
Report_Sheet.write_column(1, 0, url_list)
workbook.close()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...