У меня есть функция, которая два сканирует веб-страницу и ищет определенный класс и находит внутри него тег href.
url="https://www.poynter.org/ifcn-covid-19-misinformation/page/220/"
def url_parse(site):
hdr = {'User-Agent': 'Mozilla/5.0'}
req = Request(site,headers=hdr)
page = urlopen(req)
soup = BeautifulSoup(page)
return soup
def article_link(URL):
try:
soup=url_parse(URL)
for i in soup.find_all("a", class_="button entry-content__button entry-content__button--smaller"):
link=i['href']
except:
pass
return link
data['article_source']=""
for i, rows in data.iterrows():
rows['article_source']= article_link(rows['url'])
Issue
Функция url_parse и article_link работают нормально, но когда я использую функцию article_link для обновления ячейки внутри дейтаграммы, она перестает работать после 1500 или 1000 URL. Я понимаю, что с моим ноутбуком может быть IP-адрес, но я не понимаю, как его решить, потому что нет сообщения об ошибке.
Ожидание
Функция article_link разбирать все URL внутри фрейма данных.