Если вам нужен только текст, относящийся к статье, вы можете просто адаптировать указатель в вашем методе text_scraper
и удалить только теги <p>
в <section>
:
def text_scraper(page_soup):
text_body = ''
# Find only the text related to the article:
article_section = page_soup.find('section',{'class':'body'})
# Returns the text of p tags, we stopped it at -5 bc that's when the text is irrelevant to the article
for p in article_section.find_all('p'):
if p.previousSibling and p.previousSibling.name is not 'em':
text_body += p.text
return(text_body)
Тогдастатья будет возвращена без текста внутри нижнего колонтитула ( Хезер Найт - обозреватель [...] и их борьба. )
РЕДАКТИРОВАТЬ: Добавлен тест народитель, чтобы избежать последней части Хроника Сан-Франциско [...] Twitter: @ hknightsf