пытаясь вычистить конкретные данные из таблиц HTML, используя красивый суп - PullRequest
0 голосов
/ 23 июня 2019

Я пытался взять время из таблицы HTML ниже.Мне удалось получить эти таблицы в списке, но я получил много данных

<tr>
<td class="data1">Last update <b class="time">*</b></td>
<td colspan="3">
    <font color="#000000" size="2">10:00 </font><input name="new" type="text" class="myinput"/>
</td>
</tr>

Я не смог понять, как разобрать номер времени

import bs4 as bs
import requests

source = requests.get('URL')
soup = bs.BeautifulSoup(source.text,'lxml')

table = soup.table
table_rows = table.find_all('tr')

for tr in table_rows:
    td = tr.find_all('td')
    for i in td:
        row = [i.text]
        print(row)

Я пытаюсьсохранить время в строке, а затем использовать его

1 Ответ

0 голосов
/ 23 июня 2019

Я думаю, вы можете попытаться получить элементы шрифта с цветом # 000000 внутри ваших строк, а затем извлечь время.

Вместо этого:

for tr in table_rows:
    td = tr.find_all('td')
    for i in td:
        row = [i.text]
        print(row)

Попробуйте это:

for tr in table_rows:
    times = [time.text for time in tr.find_all('font', {'color':'#000000'})]
    print(times)

Надеюсь, это поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...