Как я могу получить только текст, относящийся только к статье?Я не хочу случайных вещей.
from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup test1 = 'https://www.sfchronicle.com/news/bayarea/heatherknight/article/Special-education-teacher-a-prime-example-of-13560483.php' # Opening up the connection, grabbing the page uClient = uReq(test1) page_html = uClient.read() uClient.close() # HTML parsing page_soup = soup(page_html, "html.parser") #print(page_soup.prettify()) # text of article text = page_soup.find_all('p') print(text)
Что вам нужно сделать, это перебрать page_soup.find_all ('p').
for p in page_soup.find_all('p'): print (p.text, p.next_sibling)