Question

Я использую BeautifulSoup, чтобы попытаться очистить данные со страниц игрового дня MLB.

Сейчас я просто пытаюсь извлечь идентификаторы игрового дня.

Вот пример страницы:

url = "http://gd2.mlb.com/components/game/mlb/year_2017/month_04/day_20/epg.xml"

soup = BeautifulSoup(urlopen(d_url), "lxml")

После этого я не уверен, как ориентироваться и находить идентификаторы.

Они хранятся в 2 разных местах для каждой игры:

  game_data_directory="/components/game/mlb/year_2017/month_04/day_20/
                       gid_2017_04_20_bosmlb_tormlb_1"

gameday="2017_04_20_bosmlb_tormlb_1"

Какой лучший способ найти, а затем сохранить идентификаторы?

Спасибо.

iamklaus · Answer 1 · 07 сентября 2018

data = requests.get('http://gd2.mlb.com/components/game/mlb/year_2017/month_04/day_20/epg.xml')
data = BeautifulSoup(data.content, "lxml")

for game in data.find_all('game'):
    print(game['game_data_directory'])
    pos = game['game_data_directory'].rfind('/')
    print(game['game_data_directory'][46:])

Соскребая MLB Gameday Data

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Соскребая MLB Gameday Data

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов