Не удается найти тег html при использовании красивого супа - PullRequest
0 голосов
/ 01 мая 2020

Я пытаюсь поближе познакомиться с поиском в Интернете. Я наткнулся на этот веб-сайт, https://www.freecodecamp.org/news/how-to-scrape-websites-with-python-and-beautifulsoup-5946935d93fe/, который дает представление о веб-очистке с использованием Beautiful Soup. После демонстрации я попытался очистить значение и название фондового индекса S & P предоставленным кодом, но это не сработало. Я думаю, что некоторые вещи изменились, как тег цены больше не под h1, как написал автор на сайте. Когда я проверяю веб-страницу для просмотра кода html, я вижу все используемые теги. Я понял, что часть кода html не соскребается с сайта Bloomberg. Я распечатал то, что веб-мастер собирает на консоли.

Код:

import urllib2
from bs4 import BeautifulSoup
quote_page = "http://www.bloomberg.com/quote/SPX:IND"
page = urllib2.urlopen(quote_page)
soup = BeautifulSoup(page, 'html.parser')
print (soup)
name_box = soup.find("h1", attrs={"class": "price"})
name = name_box.text.strip() #get 'Nonetype object has no attribute text' here
print(name)

У меня были проблемы с отображением того, что код печатает в стеке, но в основном некоторые теги отсутствуют. Мне интересно, почему это так и как на самом деле поцарапать сайт. Когда я проверяю веб-сайт, я могу найти тег, который ищу:

<span class="priceText__1853e8a5">2,912.43</span>

Но, используя код, который у меня есть, я не могу получить этот тег.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...