BeautifulSoup HTML парсер изменяет тег href - PullRequest
0 голосов
/ 10 января 2020

При использовании BeautifulSoup для анализа и извлечения всех URLs, присутствующих в email, при извлечении тегов <a> значение href имеет измененное значение, чем значение, присутствующее в теге a.

Пример кода:

import bs4
soup = bs4.BeautifulSoup(html_code)
for link in soup.findAll("a"):
    print(link)
    url = link.get("href")
    print(url)
    if url and "http" in url:
        html_urls.append(url)

ссылка

<a class="email-link email-textGray email-underline" href="https://medium.com/me/email-settings/276173762aee/75e6c9e76dd0?source=email-276173762aee-1573712256115-digest.reader-------------------------785f89d2_b50d_45eb_8b5e_7392fe13f6cf&amp;type=social" style="color: #8e8e8e; text-decoration: underline;">Unsubscribe</a>

url Click-Here

Тип: <class 'bs4.element.Tag'>

Обратите внимание на замену &amp; на &

Может ли кто-нибудь указать, почему так и что именно происходит? Проследил также код в bs4, но не смог найти потенциальных клиентов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...