Как сканировать сайт AngularJS с помощью Python Scrapy? - PullRequest
0 голосов
/ 03 июля 2018

Я пытаюсь соскрести информацию о продукте с веб-страницы. это моя веб-страница

Я видел следующие сообщения:

селен со скрапом для динамической страницы

Очистка динамического содержимого с помощью Python-Scrapy

и многие другие ، затем написали следующий код:

import scrapy
from scrapy_splash import SplashRequest

class filmnet_Spider(scrapy.Spider):
    name = 'filmnet'
    start_urls = {'http://filmnet.ir/'}

    DOWNLOADER_MIDDLEWARES = {
    'filmnet_Spider.SplashCookiesMiddleware': 723,
    'filmnet_Spider.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

    SPIDER_MIDDLEWARES = {
    'filmnet_Spider.SplashDeduplicateArgsMiddleware': 100,
}
    DUPEFILTER_CLASS = 'filmnet_Spider.SplashAwareDupeFilter'
HTTPCACHE_STORAGE = 'filmnet_Spider.SplashAwareFSCacheStorage'

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, self.parse, meta={
                'splash': {
                'endpoint': 'render.html',
                'args': {'wait': 0.5}
                }
            })

    def parse(self, response):

        for filmnetscrap in self.start_urls:

            poster = filmnetscrap.xpath('//div[@class="verticalImage organizer"]//img/@src').extract()
            print poster

Я также написал файл настроек, который включал:

SPLASH_URL = 'http://localhost:8050/'

Но это не работает

...