Я использую «запросы» и «Beautifulsoup» для поиска всех ссылок HREF с веб-страницы с конкретным текстом. Я уже сделал это, но если текст появляется в новой строке, Beautifulsoup не «видит» его и не возвращает эту ссылку.
soup = BeautifulSoup(webpageAdress, "lxml")
path = soup.findAll('a', href=True, text="Something3")
print(path)
Пример:
Таким образом, он возвращает текст Href of Something3:
...
<a href="page1/somethingC.aspx">Something3</a>
...
Таким образом, он не возвращает текст Href of Something3:
...
<a href="page1/somethingC.aspx">
Something3</a>
...
Разница в том, что текст Href (Something3) находится в новой строке.
И я не могу изменить HTML-код, потому что я не веб-мастер этой веб-страницы.
Есть идеи, как мне это решить?
Примечание: я уже пытался использовать soup.replace ('\ n', '') .replace ('\ r', ''), но я получаю сообщение об ошибке. Объект NoneType не вызывается.