Я использую Beautiful Soup для сбора информации с сайта.
Соответствующий код:
page_url = https://www.autotrader.co.uk/car-search?sort=sponsored&radius=1500&postcode=&onesearchad=Used&onesearchad=Nearly%20New&onesearchad=New&make=Vauxhall&model=Corsa&year-from=2008&year-to=2010&minimum-mileage=82376&maximum-mileage=123564&page=2
page = urllib2.urlopen(page_url)
soup = BeautifulSoup(page, 'html.parser')
Теперь я просто хочу напечатать каждую цену на странице, которая находится внутри тегов <div class="vehicle-price"></div>
, например:
<div class="vehicle-price" data-label="search appearance click">\xa34,400</div>
Поэтому я использую:
for i in soup.select('div.vehicle-price'):
print (i.string)
Это прекрасно работает, КРОМЕ этого есть <div>
тегов, подобных этому:
<div class="vehicle-price physical-stock-mrrp" data-label="search
appearance click new car">
И код все еще печатает то, что находится внутри этих тегов.
Как я могу сказать Beautiful Soup, что я хочу, чтобы содержимое тега было только тогда, когда class="vehicle-price"
, а не когда class="vehicle-price other-things-too"
?