как обнаружить неработающие ссылки в CSV-файле - PullRequest
0 голосов
/ 12 октября 2018

У меня есть 900 строк CSV-файла, содержащих URL-ссылки, я хочу определить, какая из них не работает, или 404 мертвых ссылки, прежде чем я смогу использовать scikit-learn.так что я могу использовать Python 3.7 и создать CSV-файл, который сообщает, какая из них не работает, а какая активна.заранее

1 Ответ

0 голосов
/ 12 октября 2018

Вам нужно будет указать, что означает, что ссылка будет полностью разорвана.Вот пример кода, вы можете настроить его по своему усмотрению, обновив метод is_broken:

 import pandas as pd
 import requests

 # Preparing dummy data 
 links = ['https://google.com', 'http://thisisinvalid.de', 'http://docs.python-requests.org/en/master/api/broken']
 df = pd.DataFrame(links, columns=['links'])

 # Update as you need
 def is_broken(link):
     try:
         response = requests.get(link)
         if response.status_code == 404:
             return True
         return False
     except Exception as e:
         return True

 df.ix[:, 'is_broken'] = df.ix[:, 'links'].map(lambda link: is_broken(link))

https://google.com не сломан, http://thisisinvalid.de не может разрешиться и http://docs.python-requests.org/en/master/api/broken возвращает 404

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...