с помощью этого кода я мог бы получить список авторов и название книги с первого URL! Как сканировать данные нескольких URL-адресов с помощью Beautifulsoup? - PullRequest
1 голос
/ 19 октября 2019
import requests, bs4
import numpy as np
import requests
import pandas as pd
import requests
from bs4 import BeautifulSoup
from pandas import DataFrame


urls = ['http://www.gutenberg.org/ebooks/search/? 
sort_order=title','http://www.gutenberg.org/ebooks/search/?sort_order=title&start_index=26']
for url in urls:
    page = requests.get(url)
    soup = BeautifulSoup(page.content, 'html.parser')
    tb = soup.find_all('span', class_='cell content')
    soup_books = soup.findAll("span",{"class":"title"})  #books
    soup_authors= soup.findAll("span",{"class":"subtitle"}) #authors

    article_title = []
    article_author = []

    soup_title= soup.findAll("span",{"class":"title"})  # books
    soup_para= soup.findAll("span",{"class":"subtitle"})  #authors
for x in range(len(soup_para)):
    article_title.append(soup_title[x].text.strip())
    article_author.append(soup_para[x].text)

data = {'Article_Author':article_author, 'Article_Title':article_title}
df = DataFrame(data, columns = ['Article_Title','Article_Author'])
print(df)
len(df)

Мне нужно сканировать данные с веб-сайта 'http://www.gutenberg.org/ebooks/search/? sort_order = title' до конца страницы, как я могу перебирать страницы, чтобы заставить всех авторов и названия там работатьв этом разделе

1 Ответ

0 голосов
/ 19 октября 2019

Вы имеете в виду, что после первых 25 результатов вы хотите перейти на следующую страницу и получить результаты на следующей странице? Вы можете использовать beatufiulsoup, чтобы получить URL-адрес кнопки «Далее» в правом нижнем углу страницы:

next_url = soup.find('a', {'title': 'Go to the next page results.'})

, а затем снова запустить код с новым URL-адресом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...