Похоже, у вас неправильный символ между #tournamentTable
и td[xodd]
.Может выглядеть как пробел, но имеет код \x1b
.Вы можете попытаться удалить этот символ и снова поставить пробел.
Я могу запустить ваш код без этой ошибки.Но эта страница использует JavaScript для получения данных и BS
не может запустить JavaScript.Вам может понадобиться Selenium для управления веб-браузером, который может запускать JavaScript, и вы можете получать HTML с данными.
Или вы можете использовать DevTool в Chrome / Firefox, чтобы проверить, читает ли JavaScript данные с некоторого URL-адреса и считывает данные с того жеurl.
Я нашел url
https://fb.oddsportal.com/ajax-sport-country-tournament/1/YLO7JZEA/X0/1/?_=1558215347943
Последняя часть - это текущая дата как отметка времени *1000* 1014 *
import datetime
print(datetime.datetime.fromtimestamp(1558215347943/1000))
# 2019-05-18 23:35:47.943000
dt = datetime.datetime.now()
print(int(dt.timestamp()*1000))
# 1558216525573
Использование requests.Session()
и лучше headers
Я могу прочитатьиз этого URL.Он предоставляет данные в виде кода JavaScript, но после вырезания некоторой части я получаю данные в формате JSON, который можно преобразовать в словарь Python
import requests
from bs4 import BeautifulSoup as bs
import json
s = requests.Session()
headers = {
'User-Agent' : 'Mozilla/5.0 (X11; Linux x86_64; rv:68.0) Gecko/20100101 Firefox/68.0'
}
url = 'https://www.oddsportal.com/soccer/spain/laliga'
r = s.get(url, headers=headers)
soup = bs(r.content, 'lxml')
print(r.text.find('xodd'))
print([b.text for b in soup.select('#tournamentTable td[xodd]')])
headers = {
'User-Agent' : 'Mozilla/5.0 (X11; Linux x86_64; rv:68.0) Gecko/20100101 Firefox/68.0',
'Referer': 'https://www.oddsportal.com/soccer/spain/laliga/',
}
r = s.get('https://fb.oddsportal.com/ajax-sport-country-tournament/1/YLO7JZEA/X0/1/?_=1558215347943', headers=headers)
text = r.text[len("globals.jsonpCallback('/ajax-sport-country-tournament/1/YLO7JZEA/X0/1/', "):-2]
data = json.loads(text)
for key, val in data['d']['oddsData'].items():
print('xeid:', key)
print('xoid:', val['odds'][0]['oid'], 'avg:', val['odds'][0]['avg'])
print('xoid:', val['odds'][0]['oid'], 'avg:', val['odds'][1]['avg'])
print('xoid:', val['odds'][0]['oid'], 'avg:', val['odds'][2]['avg'])
print('---')
Результат:
xeid: ltB92yKu
xoid: 35vjqxv464x0x7qrck avg: 2.16
xoid: 35vjqxv464x0x7qrck avg: 3.5
xoid: 35vjqxv464x0x7qrck avg: 3.44
---
xeid: SW9D1eZo
xoid: 35vjrxv464x0x7qrcm avg: 1.33
xoid: 35vjrxv464x0x7qrcm avg: 5.71
xoid: 35vjrxv464x0x7qrcm avg: 8.83
---
xeid: Mg9H0Flh
xoid: 35vjsxv464x0x7qrco avg: 1.99
xoid: 35vjsxv464x0x7qrco avg: 3.79
xoid: 35vjsxv464x0x7qrco avg: 3.68
---
xeid: zcDLaZ3b
xoid: 35vjtxv464x0x7qrcq avg: 1.57
xoid: 35vjtxv464x0x7qrcq avg: 4.38
xoid: 35vjtxv464x0x7qrcq avg: 5.95
---
РЕДАКТИРОВАТЬ: с использованием селена
import selenium.webdriver
url = 'https://www.oddsportal.com/soccer/spain/laliga'
driver = selenium.webdriver.Firefox()
driver.get(url)
items = driver.find_elements_by_css_selector("#tournamentTable td[xodd]")
print([x.text for x in items])
Результат:
['4.26', '4.07', '1.80', '1.99', '3.79', '3.68', '1.57', '4.38', '5.95', '2.13', '3.19', '3.94', '7.82', '5.00', '1.41', '2.16', '3.50', '3.44', '1.33', '5.71', '8.83', '2.58', '3.52', '2.73', '1.49', '5.31', '5.66', '4.03', '4.21', '1.82']