Я хотел бы выбрать содержимое элементов на основе предыдущего тега:
<h4>Models & Products</h4>
<div class="profile-area">...</div>
<h4>Production Capacity (year)</h4>
<div class="profile-area">...</div>
Как я могу получить значения "profile-area" на основе содержимого предыдущего тега?
Вот мой код:
import requests
from bs4 import BeautifulSoup
import csv
import re
html_doc = """
<html>
<body>
<div class="col-md-6">
<iframe class="factory_detail_google_map" frameborder="0" src=
"https://www.google.com/maps/embed/v1/search?q=3.037787%2C101.38189&key=AIzaSyCMDADp9QHYbQ8OBGl8puAOv-16W8ziz7Y"
allowfullscreen=""></iframe>
</div>
<div class="col-md-12">
<h4>Models & Products</h4>
<div class="profile-area">
Large Buses, Trucks, Trailer-heads
</div>
<h4>Production Capacity (year)</h4>
<div class="profile-area">
Vehicle 700 units /year
</div>
<h4>Output</h4>
<div class="profile-area">
Vehicle 356 units ( 2016 )
</div>
<div class="profile-area">
Vehicle 477 units ( 2015 )
</div>
<div class="profile-area">
Vehicle 760 units ( 2014 )
</div>
<div class="profile-area">
Vehicle 647 units ( 2013 )
</div>
</div>
</body>
</html>
"""
soup = BeautifulSoup(html, 'lxml')
#link=soup.iframe.get('src')
#print(link.split("%2C"))
for item in soup.select("div.profile-area"):
print(item.text)
Как вы можете видеть, я также пытаюсь разбить ссылку на Карты Google на координаты, но это я, вероятно, выясню самостоятельно.
Спасибо за вашу помощь!