Следующие коды сохранят загруженные статьи в формате HTML.В папке вы найдете.tagesschau_paper0.html, tagesschau_paper1.html, tagesschau_paper2.html, .....
import newspaper
from newspaper import news_pool
tagesschau_paper = newspaper.build('http://tagesschau.de')
cnn_paper = newspaper.build('http://cnn.com')
papers = [tagesschau_paper, cnn_paper]
news_pool.set(papers, threads_per_source=2)
news_pool.join()
for i in range (tagesschau_paper.size()):
with open("tagesschau_paper{}.html".format(i), "w") as file:
file.write(tagesschau_paper.articles[i].html)
Примечание: news_pool
ничего не получает от CNN, поэтому я пропустил написание кодов для него.Если вы отметите cnn_paper.size()
, это приведет к 0
.Вместо этого вы должны импортировать и использовать Source .
Приведенные выше коды можно использовать в качестве примера для сохранения статей и в других форматах, например, txt, а также только те части, которые вам нужны из статей.например, авторы, тело, publish_date.