Я создал код на языке Python для очистки содержимого новостных статей, которые искали по ключевым словам в новостях Google.
def __init__(self,term): self.term = term self.url ='https://www.google.com/search?q={0}&source=lnms&tbm=nws'.format(self.term) response = requests.get(self.url)
Этот код может получить только содержимое первой страницы, поиск которого осуществляется по ключевым словам. Интересно, как я могу изменить свой код, чтобы получить вторую, третью или даже больше страниц?
Это можно сделать, добавив к URL-адресу параметр запроса &start= и поместив целое число, указывающее, с какой страницы поиска должен начинаться показ результатов.
&start=
Например, поскольку на странице по умолчанию отображается 10 результатов, используя
self.url ='https://www.google.com/search?q={0}&source=lnms&tbm=nws&start=10'.format(self.term)
покажет вам вторую страницу.
Таким образом, обобщенный результат может быть чем-то похожим на это (вы также можете изменить его для смены страниц после каждой очистки):
def __init__(self, term, page): self.term = term self.subjectivity =0 self.sentiment =0 self.url ='https://www.google.com/search?q={0}&source=lnms&tbm=nws&start={1}'.format(self.term, page * 10)