ловить части абзаца BeautifulSoup - PullRequest
0 голосов
/ 04 апреля 2019

Я использовал функцию findAll в своем суповом объекте, чтобы найти нужные мне данные.Все, что мне нужно, это получить именно то, что я хочу ссылка href .Вот что у меня есть:

Soup[0].a
#output:
<a href="School">
<div class="name">XXX</div>6 Lemaitre Avenue 65000</a>

Я могу получить справку ( Школа ), используя ссылку attribs и название школы, переходящей кDiv, но я не могу получить последнюю часть ссылки, которая является адресом школы (эта часть прямо здесь: -> 6 Lemaitre Avenue 65000 )

1 Ответ

0 голосов
/ 04 апреля 2019

Попробуйте использовать Next_element.

from bs4 import BeautifulSoup
import re
html = '''
<a href="School">
<div class="name">XXX</div>6 Lemaitre Avenue 65000</a>
'''
soup = BeautifulSoup(html,'html.parser')
items=soup.find_all('a',href=re.compile("School"))
for item in items:
    item=item.find('div').next_element.next_element
    print(item)

Вывод:

6 Lemaitre Avenue 65000
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...