Я написал скрипт на python, чтобы очистить адрес от фрагмента HTML-элементов.Адрес находится в пределах пары br
тегов.Однако, когда я запускаю свой скрипт, я получаю [<br/>, <br/>, <br/>, <br/>]
в качестве вывода.
Как получить полный адрес?
HTML-элементы, с которых я пытаюсь получить адрес:
<div class="ACA_TabRow ACA_FLeft">
Mailing
<br/>
1961 MAIN ST #186
<br/>
WATSONVILLE, CA, 95076
<br/>
United States
<br/>
</div>
Я пробовал до сих пор:
from bs4 import BeautifulSoup
import re
html = """
<div class="ACA_TabRow ACA_FLeft">
Mailing
<br/>
1961 MAIN ST #186
<br/>
WATSONVILLE, CA, 95076
<br/>
United States
<br/>
</div>
"""
soup = BeautifulSoup(html,"lxml")
items = soup.find(class_="ACA_TabRow").find(string=re.compile("Mailing")).find_next_siblings()
print(items)