Вы были заблокированы Google, вероятно.Посмотрите, можете ли вы получить доступ к URL из браузера.Вам нужно добавить user agent
в заголовки и задержку между каждым URL-запросом и может быть подключен через прокси, если вы заблокированы надолго.
Могу ли я предложить использовать пакет requests
, который построен поверх urllib
и обеспечивает большую гибкость при кодировании.
ex:
headers = {
'User-Agent': ('Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) '
'Gecko/20100101 Firefox/61.0'),
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'
}
## proxies is optional
ip = 'blah-blah'
port = 'blah'
proxies = {"http": 'http://' + ip + ':' + port,
"https": 'http://' + ip + ':' + port}
html = requests.get(url, headers=headers, proxies=proxies)
Добавление задержки ##
на time.sleep(number)
def companyname():
for r in ws.rows:
row_index = r[0].row
Eng_name = r[1].value
Kor_name = bs(Eng_name)
#add delay after each crawl
time.sleep(5) #sleeps for 5 seconds
ws.cell(row=row_index, column=1).value = row_index
ws.cell(row=row_index, column=2).value = Eng_name
ws.cell(row=row_index, column=3).value = Kor_name
wd.save("Done.xlsx")
wd.close()