У меня возникли проблемы с извлечением определенного значения из элемента в атрибутах, извлеченных с веб-сайта, с использованием кода ниже:
from bs4 import BeautifulSoup
import requests
# Get mills and estates information from dashboard
url = 'http://nestetraceabilitydashboard.com/nestes-palm-oil-dashboard'
page = requests.get(url).text
soup = BeautifulSoup(page, "html.parser")
divList = soup.findAll('div', attrs={"class" : "map-item estate-map-item"})
data = {}
for div in divList:
for k,v in div.attrs.items():
if k not in ('class'):
data[k] = data.get(k, []) + [v]
df = pd.DataFrame(data)
Ниже приведен отрывок divList
:
[<div class="map-item estate-map-item" data-country="Indonesia" data-latitude="1.926944000" data-location="Riau" data-longitude="99.906390000" data-mills="Aek Nabara" id="map_item_5600">(Aek Nabara) - Aek Nabara</div>,
<div class="map-item estate-map-item" data-country="Indonesia" data-latitude="0.429444444" data-location="Riau" data-longitude="101.818611100" data-mills="Buatan I " id="map_item_5601">(Buatan I/II ) - Buatan</div>,
Однако выходные данные dict
и dataframe
удаляют все после map_item_XXXX в id
.
Как бы я получал значения только за кавычками в моем dict
, а затем в столбец dataframe
id
, например (Aek Nabara) - Aek Nabara
для первого элемента в divList
выше?