Question

Как я могу получить только текст, относящийся только к статье?Я не хочу случайных вещей.

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

test1 = 'https://www.sfchronicle.com/news/bayarea/heatherknight/article/Special-education-teacher-a-prime-example-of-13560483.php'

# Opening up the connection, grabbing the page
uClient = uReq(test1)
page_html = uClient.read()
uClient.close()

# HTML parsing
page_soup = soup(page_html, "html.parser")
#print(page_soup.prettify())

# text of article
text = page_soup.find_all('p')
print(text)

user2510479 · Answer 1 · 20 февраля 2019

Что вам нужно сделать, это перебрать page_soup.find_all ('p').

     for p in page_soup.find_all('p'):
          print (p.text, p.next_sibling)

Как я могу извлечь тело этой статьи?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу извлечь тело этой статьи?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов