Проблема в очистке веб-страниц с помощью Beautiful Soup и urllib - PullRequest
0 голосов
/ 15 апреля 2020

Helllo!

Я делаю некоторые заметки на сайте Премьер-лиги и сталкиваюсь со следующей проблемой. Когда я запускаю это:

my_url = 'https://www.premierleague.com/match/{}'.format(i)
client = urlopen(my_url)
page_html = client.read()

эта специфика c часть страницы_ html возвращается так:

<div class="matchDate renderMatchDateContainer" data-kickoff="1583784000000"></div>

, когда это должно было быть так, как Я вижу в браузере:

<div class="matchDate renderMatchDateContainer" data-kickoff="1583784000000">Mon 9 Mar 2020</div>

You can also see it here

, в результате не могу удалить дату «Пн 9 марта 2020».

Кто-нибудь может помочь? Спасибо!

1 Ответ

0 голосов
/ 15 апреля 2020

1583685000 из data-kickoff=1583685000000 представляет 2020/03/09, вы делаете математику с JavaScript? Почему бы вам не попытаться преобразовать эти данные?

num = 1583685000000
s = str(num)
date = int(s[0:-3])
d = datetime.date.fromtimestamp(date)
d.strftime('%d/%m/%y')

'09 / 03/20 '

...