Извлечь текст из тега IMG bs4.element.Tag - PullRequest
0 голосов
/ 22 сентября 2019

У меня есть следующий вопрос, чтобы спросить.

1002 * У меня есть список bs4.element.Tags как список этого изображения 1004 *list of tags 1007 * Как вамможно видеть, что есть много элементов, которые помечены тегом «A HREF =» / название / ... ">. Тем не менее, я не хочу, чтобы все из них. Я хочу только HREF теги, которые следуют из <img> тег. Как я могу добиться этого? 1010 * А во-вторых, когда я держать только те элементы 1012 *imagetag">

Я хотел бы держать только слово внутритег заголовка. Например, в изображение ниже, чтобы сохранить «IMG название =„Гравитация“, поэтому только слово силы тяжести.

1017 *text to keep 1020 * LINK OF HTML DOCS: 1023 * HTML документы для каждого фильма

код

1030 *

1 Ответ

0 голосов
/ 22 сентября 2019

Вы можете попробовать следующее, которое требует bs4 4.7.1+ и использует :has, чтобы указать, что вы хотите a теги с img потомком, затем соседний братский комбинатор, чтобы получить следующий img и добавить атрибут = значениеселекторы для обеспечения href, содержащего определенную подстроку и атрибут title.Если вы знаете, что всегда будет атрибут title, вы можете удалить его из селектора.

titles = [i['title'] for i in soup.select("a:has(img) + [href*='/title/tt'][title]")]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...