Почему содержание ответа Scrapy повышения не текст? - PullRequest
0 голосов
/ 21 июня 2019

Я пытаюсь почистить объявления, которые присутствуют в статье. Когда я пытаюсь запустить свой кусок кода, я получаю сообщение об ошибке:

NotSupported: содержимое ответа не является текстом.

Вот мой код:

import scrapy
from imagecrawl.items import ImagecrawlItem


class ImgspiderSpider(scrapy.Spider):
    name = "imgspider"
    start_urls = ['http://www.deccanheraldepaper.com/data/pp3-20190621_10/webepaper/photos/541862.png']

    def parse(self, response):
        link = response.css('div.flex_grid img::attr(srcset)').extract()
        urls = []
        for pairs in link:
            for each in pairs.split(','):
                urls.append(each[:-3].strip())

        for img_url in urls:
            yield ImagecrawlItem(image_urls=[img_url])

items.py

import scrapy


class ImagecrawlItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()

    image_urls = scrapy.Field()
    images = scrapy.Field()
    pass

1 Ответ

0 голосов
/ 21 июня 2019

Ваш start_urls - это URL изображения:

start_urls = ['http://www.deccanheraldepaper.com/data/pp3-20190621_10/webepaper/photos/541862.png']

Удалите его и добавьте ссылку на страницу со ссылкой на изображение.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...