Как получать новости по дате публикации, используя библиотеку python для news-please - PullRequest
1 голос
/ 04 октября 2019

Я пытаюсь курировать новостные статьи, посвященные одной и той же истории из разных СМИ, для которых я использую библиотеку python для новостей - пожалуйста. Следующий код дает мне новости, используя указанный URL, но я хочу получить несколько новостных статей (на основе определенных дат или диапазона дат). Кто-нибудь знает, как я могу это сделать?

Это код, который работает, чтобы получать новости, используя определенные URL-адреса:

from newsplease import NewsPlease

article = NewsPlease.from_url('https://www.nytimes.com/2017/02/23/us/politics/cpac-stephen-bannon-reince-priebus.html?hp')

print(article.title)

Ответы [ 2 ]

1 голос
/ 04 октября 2019

Этого можно добиться, либо извлекая дату публикации из созданного объекта статьи, либо вы можете использовать файл WARC .

Более подробная информация доступна прямо в документации:https://github.com/fhamborg/news-please#use-within-your-own-code-as-a-library

0 голосов
/ 08 ноября 2019

Ответ Шишдема превосходен, если вы хотите получить много статей из общего архива новостей о сканировании (также называемого обычным сканированием новостей о сканировании или CCNC).

Однако, если вы ищете только несколько статей, вы можете использовать NewsPlease.from_urls([url1, url2, ...], timeout=6) для сканирования этих статей (см. https://github.com/fhamborg/news-please#use-within-your-own-code-as-a-library). Обратите внимание, эта команда не поддерживает фильтрацию изполе, но я бы все-таки предпочел его (и последующую фильтрацию статей, реализованный самостоятельно) по сравнению с общим вариантом новостей архива сканирования - пожалуйста, если вы просто хотите иметь несколько статей. Одна из причин этого заключается в том, что длячтобы получить отфильтрованное подмножество статей из CCNC, теоретически вам необходимо обработать полный CCNC, поскольку статьи в CCNC не обязательно упорядочены по дате публикации. Например, можно отсканировать статью от 1 января 2018 года в новостной ленте ACCNC всего лишь через день, хотя может случиться, что другая статья от 2 января 2018 года, опубликованная издателем B, будет просканирована месяцем или даже годом позже.

...