проблема с питоном - PullRequest
       9

проблема с питоном

0 голосов
/ 12 октября 2010

У меня возникла проблема с извлечением некоторых данных из HTML-источника.

ниже приведен фрагмент кода моего HTML-кода, и я хочу извлечь строковое значение в каждом

подписан

<td class="gamedate">10/12 00:59</b></td>

<td class="gametype">오버언더</b></td>

<td class="legue"><nobr style="width:100%;overflow:hidden;letter-spacing:-1;font-size:11px;"><nobr style='display:block; overflow:hidden;'><img src='../data/banner/25' border='0' width='20' height='13' alt='' align='absmiddle'></a> 그리스 D2</nobr>

<td class="bet" id="team1_27771" class="homeTeam1">Pas Giannina (↑오버)</td>

<td class="bet" id="bet1_27771" class="homeTeam2" align="right">1.65</td>

<td class="pointer muSelect" id="chk_27771_3" num='27771' bet='2.5' sp='오버언더'  bgcolor="f0f0f0"  class="handy handy1" ><span id="bet3_27771">2.5</span></td>

<td class="bet" id="bet2_27771" class="awayTeam2" align="left">1.95</td>

<td class="bet" id="team2_27771" class="awayTeam1">Pierikos (↓언더)</td>

так что я хочу извлечь окончательное значение

10/12 00:59

오버언더

그리스 D2

Pas Giannina (↑오버)

1.65

2.5

1.95

Pierikos (↓언더)

Ниже приведен мой полный источник HTML

помогите мне, пожалуйста! заранее спасибо!

потому что источник html довольно большой, поэтому я был загружен на pastebin.com

http://pastebin.com/Gdun0jhf

Ответы [ 3 ]

1 голос
/ 12 октября 2010

Почему бы просто не заменить строку

html.replace("AAAAAA", "Put what you want for AAAAAA here")

и сделать это для всех вещей, которые вы хотите заменить?

Проигнорируйте, я скучаю, прочитайте вопрос полностью, мой мозг не должен быть включен сегодня

0 голосов
/ 13 октября 2010

Примерно так работает с базовой таблицей:

soup = BeautifulSoup.BeautifulSoup(YOUR_HTML)
table = soup.find('TABLE_ID')
for td in table.findAll('td'):
    print td.string

, но похоже, что HTML-код, с которым вы имеете дело, немного сложнее.ТАК, может быть, было бы лучше пойти после каждого из TD по имени класса?например,

soup = BeautifulSoup.BeautifulSoup(YOUR_HTML)

#game date
game_dates = soup.findAll('td', {class: 'gamedate' })
for game_date in game_dates:
    print game_date

#bets
bets = soup.findAll('td', {class: 'bet' })
for bet in bets:
    print bet
0 голосов
/ 12 октября 2010

Вы можете использовать HTMLParser

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...