Я очень новичок в соскобе. У меня 2 проблемы. Во-первых, мне нужно удалить определенный раздел сайта, который содержит теги привязки. Мне нужно получить ссылки pdf тегов привязки только вместе с их заголовками, но, к сожалению, теги привязки также имеют нормальные ссылки. Это моя первая проблема
, вторая проблема заключается в том, что на выходе возникают нежелательные разрывы строк. для этих 2 задач код один и тот же. для того же кода у меня есть эти 2 проблемы.
веб-сайт. html
<div>
<a href="www.url.com/somethin.pdf">pdf
link</a>
<a href="www.url.com/somethin.pdf">pdf
link</a>
<a href="www.url.com/somethin">normal
link</a>
</div>
scrappy.py
import requests
from bs4 import BeautifulSoup
page = requests.get('https://www.privacy.gov.ph/advisories/')
soup = BeautifulSoup(page.content,'html.parser')
section = soup.find("section", {"class": "news_content"})
for link in section.find_all("a"):
pdf = link['href'].replace("..", "")
title = link.text.strip()
print("title: " + title + "\t")
print("pdf_link: " + pdf + "\t")
print('\n')
Если вы запустите этот код, вы найдете заголовки, содержащие нежелательные новые разрывы строк для этого html кода