Не удается добраться до этого конкретного тега CSS / HTML. - PullRequest
0 голосов
/ 07 ноября 2019

Редактирование:

Итак, я делаю webscraping, используя красивый суп.

Я пробовал много вещей, но не могу добраться до этой части кода:

enter image description here

Я пробовал это (и другие деривации), но этовозвращает пустой список:

iptu = [iptu.get_text() for iptu in soup.find_all("article", {"data-clickstream":"iptuPrices"})]

Как я могу отправить HTML-код очень большого размера для копирования и вставки?!

1 Ответ

1 голос
/ 07 ноября 2019

На вашем изображении похоже, что нужные данные находятся в строке JSON в атрибуте тега article. Если это так, то, возможно, что-то подобное поможет вам начать.

from bs4 import BeautifulSoup
import json
import requests

url = 'https://www.zapimoveis.com.br/aluguel/casas-de-condominio/agr+rj++barra-e-recreio/'

user_agent = {'User-agent': 'Mozilla/5.0'}
resp = requests.get(url, headers=user_agent)

soup = BeautifulSoup(resp.text, features="html.parser")

prices = []
for i, a in enumerate(soup.find_all('article')):
    b = a.get('data-clickstream')
    if not b: continue
    o = json.loads(b)
    prices.append(sum(map(float, o['iptuPrices'])))

print(prices)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...