На главной странице статистика тура, кажется, заполняется JavaScript <div class="tourViewData"> ... populateDDs();
BS не разбирает Javascript, см. Много других SO вопросов по этому поводу.
(Я не знаю, как решить эту часть. В худшем случае выберите и сохраните этот выбор HTML как локальный HTML-файл, как обходной путь.)
Во-первых, установите s как объект BeautifulSoup для этого URL (я использовал twill, а не rawize, поместите здесь свой аналог механизации):
from BeautifulSoup import BeautifulSoup, SoupStrainer
#from mechanize import Browser
from twill.commands import *
import re
go("http://www.pgatour.com/r/stats/info/xm.html?101")
s = BeautifulSoup(get_browser().get_html())
В любом случае таблица статистики, которую вы ищете, является таблицей, помеченной <tbody><tr class="tourStatTournHead">
.
Просто чтобы сделать вещи немного странными, атрибут tag в его строках поочередно определяется как <tr class="tourStatTournCellAlt"
или <tr class=""...
.
Мы должны искать первый <tr class="tourStatTournCellAlt"
, а затем обрабатывать каждый <tr>
в таблице, кроме строк заголовка (<tr class="tourStatTournHead">
).
Чтобы перебрать строки:
tbl = s.find('table', {'class':'tourStatTournTbl'})
def extract_text(ix,tg):
if ix==2: # player name field, may be hierarchical
tg = tg.findChildren()[0] if (len(tg.findChildren())>0) else tg
return tg.text.encode()
for rec in tbl.findAll('tr'): # {'class':'tourStatTournCellAlt'}):
# Skip header rows
if (u'tourStatTournHead' in rec.attrs[0]):
continue
# Extract all fields
(rank_tw,rank_lw,player,rounds,avg,tot_dist,tot_drives) = \
[extract_text(i,t) for (i,t) in enumerate(rec.findChildren(recursive=False))]
# ... do stuff
Мы добавили вспомогательную функцию для имени игрока (она может быть или не быть иерархической, если в нее встроен логотип Titleist.)
Вероятно, вы хотите преобразовать большинство полей в int (), кроме player (string) и avg (float); если это так, не забудьте убрать необязательный 'T' (для связанного) из полей ранга и убрать запятую из tot_dist.