Я использую BS для очистки веб-страницы, и я немного застрял с небольшой проблемой. Вот фрагмент кода HTML со страницы.
<span style="font-family: arial;"><span style="font-weight: bold;">Artist:</span> M.I.A.<br>
</span>
Как только я получу суп, как я могу найти этот тег и получить имя исполнителя, т.е. М.И.А.
Я не могу сопоставить тег с атрибутом style
, так как он используется в десятках мест на странице. Я даже не знаю точное местоположение тега span
, так как он меняет положение со страницы на страницу. Поэтому я не могу сопоставить по позиции. Имя исполнителя меняется, но структура заголовка всегда одинакова.
Я хотел бы только извлечь имя исполнителя (бит М.И.А.).