Предположим следующий HTML-фрагмент, из которого я хотел бы извлечь значения, соответствующие меткам 'price' и 'ship from':
<div class="divName">
<div>
<label>Price</label>
<div>22.99</div>
</div>
<div>
<label>Ships from</label>
<span>EU</span>
</div>
</div>
Который является частью большого HTML-файла. Предположим, что в некоторых файлах присутствует надпись «Ships from», иногда нет. Я хотел бы использовать BeautifulSoup, аналогичного подхода, чтобы справиться с этим, из-за изменчивости HTML-содержимого. Имеется несколько div
и span
, что затрудняет выбор без идентификатора или имени класса
Мои мысли, как-то так:
t = open('snippet.html', 'rb').read().decode('iso-8859-1')
s = BeautifulSoup(t, 'lxml')
s.find('div.divName[label*=Price]')
s.find('div.divName[label*=Ships from]')
Однако это возвращает пустой список.