При использовании BeautifulSoup для анализа и извлечения всех URLs, присутствующих в email, при извлечении тегов <a> значение href имеет измененное значение, чем значение, присутствующее в теге a.
BeautifulSoup
URLs
email
<a>
href
a
Пример кода:
import bs4 soup = bs4.BeautifulSoup(html_code) for link in soup.findAll("a"): print(link) url = link.get("href") print(url) if url and "http" in url: html_urls.append(url)
ссылка
<a class="email-link email-textGray email-underline" href="https://medium.com/me/email-settings/276173762aee/75e6c9e76dd0?source=email-276173762aee-1573712256115-digest.reader-------------------------785f89d2_b50d_45eb_8b5e_7392fe13f6cf&type=social" style="color: #8e8e8e; text-decoration: underline;">Unsubscribe</a>
url Click-Here
Тип: <class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>
Обратите внимание на замену & на &
&
&
Может ли кто-нибудь указать, почему так и что именно происходит? Проследил также код в bs4, но не смог найти потенциальных клиентов.