Поиск новостных статей Google Python - PullRequest
0 голосов
/ 13 июля 2020

Я сейчас думаю о написании сценария, который ищет новые статьи из поиска новостей Google. Итак, я хочу загрузить первые 10-20 статей и сохранить их в папке. Лучше всего будет только основной текст, а не весь файл html.

Так, например: Searchterm "F C Barcelona" Папка "01.01.2020" статьи здесь

1 Ответ

2 голосов
/ 14 июля 2020

Рассмотрите возможность использования RSS-канала новостей Google. Он уже отформатирован в удобном для анализа формате. Вы можете выполнить поиск, используя следующий формат.

https://news.google.com/rss/search?{query}, где запрос может быть q=keywords, поэтому для вашего примера поиск Searchterm "FC Barcelona". Запрос должен быть закодирован. Это можно сделать с помощью Python

import requests
from urllib.parse import urlencode
query = urlencode({'q': 'Searchterm "FC Barcelona"'})
url = "https://news.google.com/rss/search?" + query

# make requests
resp = requests.get(url)
# parse request

Затем вы можете проанализировать ленту так, как вам нравится, и поместить данные в папки.

...