Я создал скрипт на python для анализа адреса некоторых html-элементов. Когда я выполняю свой сценарий, я получаю номера title
, address
и phone
от элементов, тогда как мое намерение состоит в том, чтобы получить только адрес . Если бы я использовал next_sibling
, я мог бы получить только первую часть адреса, разделенную тегом br, и поэтому я пропустил этот подход.
Как я могу получить только адрес и ничего больше из приведенного ниже фрагмента?
from bs4 import BeautifulSoup
htmldoc = """
<div class="search-article-title-description">
<div class="search-article-title">
<a href="https://www.pga.com/pgapro/info/999918438?atrack=pgapro%3Anone&seapos=result%3A1%3AJeff%20S%20Swangim%2C%20PGA&page=1">Jeff S Swangim, PGA</a>
<div class="search-article-protitle">
Assistant Professional
</div>
</div>
<div class="search-article-address">
<div class="search-instructor-course">
Lake Toxaway Country Club
</div>
4366 W Club Blvd<br>Lake Toxaway, NC 28747-8538<br>
<div class="spotlightphone_num">
(828) 966-4661
</div>
</div>
</div>
"""
soup = BeautifulSoup(htmldoc,"lxml")
address = soup.select_one(".search-article-address").get_text(strip=True)
print(address)
Что я сейчас получаю:
Lake Toxaway Country Club4366 W Club BlvdLake Toxaway, NC 28747-8538(828) 966-4661
Мой ожидаемый результат:
4366 W Club BlvdLake Toxaway, NC 28747-8538