Очистка следующих страниц с помощью Python и Beautifulsoup - PullRequest
1 голос
/ 23 апреля 2020

Я новичок в Python и пытаюсь почистить некоторые ссылки на статьи с веб-сайта. Мне удалось собрать необходимую информацию с первой страницы, но я не знаю, как сделать то же самое для всех следующих страниц. Я знаю, что есть довольно много сообщений по этой проблеме, но я не смог понять это в моем случае. Вот код, который я использую:

from bs4 import BeautifulSoup
import requests
import csv

csv_file = open('cms_scrape.csv', 'w', newline='')
csv_writer = csv.writer(csv_file)
csv_writer.writerow(['date', 'link'])

base_url = 'https://www.khaleejtimes.com'
search_url = 'https://www.khaleejtimes.com/search&text=&content=articles&datefilter=24hours&sort=oldest&facet.filter=TaxonomyLeaf:Coronavirus%20outbreak'

def get_info(article):
    date = article.find('div', class_= 'author_date').text
    print(date)
    link = base_url + article.find('a')['href']
    print(link)

source = requests.get(search_url).text

soup = BeautifulSoup(source, 'lxml')

results = soup.find(class_= 'search_listing')

for article in results.find_all('li'):
    get_info(article)

    print()

    csv_writer.writerow([date, link])

csv_file.close()

Любая помощь будет принята с благодарностью.

...