Я могу получить данные, только если я использую настоящий полный User-Agent
заголовок
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:73.0) Gecko/20100101 Firefox/73.0'
, если я не использую 'User-Agent'
или использую только 'Mozilla/5.0'
, тогда я не получаю результаты
Другие элементы не были нужны, но я оставляю их в виде комментария в коде.
Возможно, этот код будет использоваться дольше или чаще, чем для корректной работы. Возможно, ему понадобятся файлы cookie или другие элементы.
Код, который я использовал для проверки различных params
, headers
, Session
/ cookies
from bs4 import BeautifulSoup
import requests
#import webbrowser
#s = requests.Session()
#headers = {
# 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:73.0) Gecko/20100101 Firefox/73.0'
#}
#response = s.get("https://www.bing.com", headers=headers)
#print(response.status_code)
params = {
'q': 'james',
# 'go': 'Wyszukaj', # `Search` in my native, Polish language
# 'qs': 'ds',
# 'form': 'QBRE'
}
headers = {
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:73.0) Gecko/20100101 Firefox/73.0',
# 'User-Agent': 'Mozilla/5.0',
# 'Referer': 'https://www.bing.com',
}
response = requests.get("https://www.bing.com/search", params=params, headers=headers)
html = response.text
#with open('temp.html', 'w') as f:
# f.write(html)
#webbrowser.open('temp.html')
soup = BeautifulSoup(html, 'html.parser')
cites = soup.find_all('cite')
print(cites)