Как сканировать несколько URL-адресов из CSV с помощью Selenium и Scrapy - PullRequest
1 голос
/ 24 сентября 2019

В настоящее время я пытаюсь сканировать несколько сайтов из https://blogabet.com/. На данный момент у меня есть файл "ursl.txt", который включает два URL: 1. http://sabobic.blogabet.com 2. http://dedi22.blogabet.com

Проблема, с которой я столкнулся, заключается в следующем: Selenium открывает каждый из двух URL-адресов один за другим в одной и той же вкладке.Таким образом, он просто сканирует содержимое второго ULR в моем файле "ursl.txt" дважды .Он не сканирует контент с первого URL.

Я думаю, что есть проблема с циклом for и тем, как вызывается функция "parse_tip".Это мой код:

import scrapy
from scrapy import Spider
from scrapy.selector import Selector
from scrapy.http import Request

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains
from time import sleep

import re
import csv
from time import sleep

class AlltipsSpider(Spider):
    name = 'alltips'
    allowed_domains = ['blogabet.com']
    # We are not using the response parameter in this function because the start urls are not defined 
    # Our class Spider is searching for the function start_requests by default 
    # Request has to returned or yield 

    def start_requests(self):

        self.driver = webdriver.Chrome('C:\webdrivers\chromedriver.exe')    
        with open("urls.txt", "rt") as f:
            start_urls = [url.strip() for url in f.readlines()]
            for url in start_urls:
                self.driver.get(url) 
                self.driver.find_element_by_id('currentTab').click()
                sleep(3)
                self.logger.info('Sleeping for 5 sec.')
                self.driver.find_element_by_xpath('//*[@id="_blog-menu"]/div[2]/div/div[2]/a[3]').click()
                sleep(7)
                self.logger.info('Sleeping for 7 sec.')                           
                yield Request(url, callback=self.parse_tip)    

    def parse_tip(self, response):
        sel = Selector(text=self.driver.page_source)
        allposts = sel.xpath('//*[@class="block media _feedPick feed-pick"]')

        for post in allposts:
            username = post.xpath('.//div[@class="col-sm-7 col-lg-6 no-padding"]/a/@title').extract()
            publish_date = post.xpath('.//*[@class="bet-age text-muted"]/text()').extract()

            yield{'Username': username,
                'Publish date': publish_date
                }

1 Ответ

1 голос
/ 24 сентября 2019

Почему вы делаете еще один запрос yield Request(url, callback=self.parse_tip), если у вас уже есть ответ от Selenium.Просто передайте этот текст ответа на parse_tip и используйте текст внутри этого

class AlltipsSpider(Spider):
    name = 'alltips'
    allowed_domains = ['blogabet.com']

    def start_requests(self):

        self.driver = webdriver.Chrome('C:\webdrivers\chromedriver.exe')    
        with open("urls.txt", "rt") as f:
            start_urls = [url.strip() for url in f.readlines()]
            for url in start_urls:
                self.driver.get(url) 
                self.driver.find_element_by_id('currentTab').click()
                sleep(3)
                self.logger.info('Sleeping for 5 sec.')
                self.driver.find_element_by_xpath('//*[@id="_blog-menu"]/div[2]/div/div[2]/a[3]').click()
                sleep(7)
                self.logger.info('Sleeping for 7 sec.')                           
                for item in self.parse_tip(text= self.driver.page_source):
                    yield item

    def parse_tip(self, text):
        sel = Selector(text=text)
        allposts = sel.xpath('//*[@class="block media _feedPick feed-pick"]')

        for post in allposts:
            username = post.xpath('.//div[@class="col-sm-7 col-lg-6 no-padding"]/a/@title').extract()
            publish_date = post.xpath('.//*[@class="bet-age text-muted"]/text()').extract()

            yield{'Username': username,
                'Publish date': publish_date
                }
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...