Question

Я хочу получить текст, который будет в первом списке <ul> после заголовка в , который будет содержать ключевое слово, например:

<b> anything </b>
<p> KEYWORD </p> 
<b> anything </b>
<b> anything KEYWORD anything </b> #this is the title that I want
<some tag> anything <some tag>
<ul> 
# this is the TEXT what I want 
</ul>

То, что я хочу, этоRE рассматривает только текст, который находится в третьем , но RE, который я написал, получает первое , ключевое слово  и второе .

Это мой RE: re.search(r'.*?(' + keyword + ').*?.*?<ul>(.*?)</ul>')

Кто-нибудь может мне помочь?

x15 · Answer 1 · 08 октября 2019

Если бы это был просто текст, сфокусируйтесь на внутреннем .., как это

(?is)(?:(?!</?b>).)*?(keyword)(?:(?!</?b>).)*?.*?<ul>\s*(.*?)\s*</ul>

https://regex101.com/r/3WwDXM/1

Расширенное

 (?is)

 <b>
 (?: (?! </?b> ) .)*?
 ( keyword )                   # (1)
 (?: (?! </?b> ) .)*?
 </b> 

 .*? 

 <ul> \s* 
 ( .*? )                       # (2)
 \s* </ul>

Emma · Answer 2 · 08 октября 2019

Может быть, это будет делать то, что вы хотите извлечь:

from bs4 import BeautifulSoup

html = '''
<b> anything </b>
<p> KEYWORD </p>
<b> anything </b>
<b> anything KEYWORD anything </b> #this is the title that I want
<some tag> anything <some tag>
<ul>
# this is the TEXT what I want
</ul>

<ul>
# this is not the TEXT what I want
</ul>

'''

soup = BeautifulSoup(html, 'html.parser')


b_tags = soup.findAll('b')
ul_tag = soup.find('ul')

desired_keyword = 'KEYWORD'

for b in b_tags:
    if desired_keyword in b.text:
        print(ul_tag.text.strip())

Вывод

# this is the TEXT what I want

Найти все между двумя тегами HTML в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Вывод

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Найти все между двумя тегами HTML в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Вывод

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов