Question

Я написал код на python для очистки веб-страниц газеты Sydney morning Herald. Этот код сначала нажимает на кнопку «Показать все», а затем просматривает все статьи. Селеновая часть работает правильно. Но я думаю, что есть некоторая проблема в части очистки, так как после очистки нужных полей (дата, заголовок и контент) для нескольких статей (5-6) он дает только дату и заголовок, но не контент.

import time
import csv
import requests
from bs4 import BeautifulSoup
from bs4.element import Tag
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

base = 'https://www.smh.com.au'
browser = webdriver.Safari(executable_path='/usr/bin/safaridriver')
wait = WebDriverWait(browser, 10)
browser.get('https://www.smh.com.au/search?text=cybersecurity')

while True:
    try:
        time.sleep(2)
        show_more = wait.until(EC.element_to_be_clickable((By.CLASS_NAME, '_3we9i')))
        show_more.click()
    except Exception as e:
            print(e)
            break

soup = BeautifulSoup(browser.page_source,'lxml')
anchors = soup.find_all('a', {'tabindex': '-1'})
for anchor in anchors:
    browser.get(base + anchor['href'])
    sub_soup = BeautifulSoup(browser.page_source, 'html.parser')
    dateTag = sub_soup.find('time', {'class': '_2_zR-'})
    titleTag = sub_soup.find('h1', {'itemprop': 'headline'})
    contentTag = sub_soup.find_all('div', {'class': '_1665V undefined'})

    date = None
    title = None
    content = None

    if isinstance(dateTag, Tag):
        date = dateTag.get_text().strip()

    if isinstance(titleTag, Tag):
        title = titleTag.get_text().strip()

    if isinstance(contentTag, list):
        content = []
        for c in contentTag:
            content.append(c.get_text().strip())
        content = ' '.join(content)

    print(f'{date}\n {title}\n {content}\n')

    time.sleep(3)  


browser.close()

Почему этот код перестал давать часть контента после нескольких статей? Я не понимаю это

Спасибо.

Maaz · Answer 1 · 18 июня 2019

Это потому, что You've reached your monthly free access limit Это сообщение, отображаемое на веб-странице после отображения нескольких страниц.

Соскребание кода с использованием селена и BeautifulSoup не работает должным образом

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Соскребание кода с использованием селена и BeautifulSoup не работает должным образом

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы