Question

У меня есть скрипт, который просматривает несколько страниц веб-сайта, и я хочу пропустить или добавить пустое место для элемента, который может отсутствовать на определенных страницах.Например, есть некоторые страницы, которые не содержат лицензию.Когда я сталкиваюсь с одной из этих страниц, я получаю ошибку атрибута.Мой скрипт ниже просматривает первые две страницы без проблем, но когда он попадает на третью страницу, он останавливается.Как я могу это исправить?Вот мой сценарий:

from urllib.request import urlopen
from bs4 import BeautifulSoup as soup
import json

base_url = "https://open.umn.edu/opentextbooks/"

data = []
n = 50
for i in range(4, n+1):
   response = urlopen(base_url + "BookDetail.aspx?bookId=" + str(i))
   page_html = response.read()
   response.close()

   #html parsing
   page_soup = soup(page_html, "html.parser")

   #grabs info for each textbook
   containers = page_soup.findAll("div",{"class":"LongDescription"})
   author = page_soup.select("p")

   for container in containers:
       item = {}
       item['type'] = "Textbook"
       item['title'] = container.find("div",{"class":"twothird"}).h1.text
       item['author'] = author[3].get_text(separator=', ')
       if item['author'] == " ":
          item['author'] = "University of Minnesota Libraries Publishing"
       item['link'] = "https://open.umn.edu/opentextbooks/BookDetail.aspx?bookId=" + str(i)
       item['source'] = "Open Textbook Library"
       item['base_url'] = "https://open.umn.edu/opentextbooks/"
       item['license'] = container.find("p",{"class":"Badge-Condition"}).a.text
       if item['license'] != container.find("p",{"class":"Badge-Condition"}).a.text:
          item['license'] = ""
       item['license_url'] = container.find("p",{"class":"Badge-Condition"}).a["href"]
       data.append(item) # add the item to the list

   with open("./json/noSubject/otl-loop.json", "w") as writeJSON:
      json.dump(data, writeJSON, ensure_ascii=False)

brawlins4 · Answer 1 · 29 мая 2018

Я понял это.Моя главная проблема была с item['license'] Вот мое исправление:

if container.find("p",{"class":"Badge-Condition"}).a:
        item['license'] = container.find("p",{"class":"Badge-Condition"}).a.text
if container.find("img",{"class":"ctl00_maincontent_imgLicence"}):
        item['license'] = ''
if container.find("p",{"class":"Badge-Condition"}).a:
        item['license_url'] = container.find("p",{"class":"Badge-Condition"}).a["href"]
if container.find("img",{"class":"ctl00_maincontent_imgLicence"}):
        item['license_url'] = ''

Пропустить элемент, если элемент не существует на странице при циклическом просмотре нескольких страниц - BeautifulSoup и Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пропустить элемент, если элемент не существует на странице при циклическом просмотре нескольких страниц - BeautifulSoup и Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов