парсинг HTML-кода с BeautifulSoup - PullRequest
0 голосов
/ 03 апреля 2019

Я пытаюсь проанализировать некоторые данные на определенном веб-сайте, я обнаружил, где именно те данные, которые мне нужны, но точно, когда я проверяю их в chrome, я вижу нужные мне данные, время, которое при проверке идет примерно такchrome:

<span data-push="clock">Half Time 34:11</span>

Однако, когда я нахожу этот конкретный текст в python, время нигде не видно (я подозреваю, что оно скрыто) (см. второе изображение в приложении), эти данные, очевидно, постоянно обновляются, есть лиспособ найти эти данные в Python?Вот что возвращается в моем коде:

<span data-push="clock"></span>

Основная проблема заключается в том, что я не уверен, что эти данные скрыты для меня или я что-то делаю неправильно при разборе.Так как я нашел правильную строку кода, я не уверен, что он последний.

Спасибо

Ответы [ 2 ]

1 голос
/ 03 апреля 2019

Если время установлено с использованием javascript, вы не можете получить его, используя только bs4 и python, вам нужно использовать selemium webdriver ->, который открывает веб-страницу в браузере-> источник захвата ->, а затем использоватьbs4, чтобы получить нужный текст из источника веб-страницы.

0 голосов
/ 03 апреля 2019

Используйте этот код, используйте метод .text для извлечения только текста

from bs4 import BeautifulSoup
base="""<span data-push="clock">Half Time 34:11</span>"""
soup = BeautifulSoup(base,"html.parser")
data=soup.find('span').text
print(data)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...