Я пытаюсь почистить объявления, которые присутствуют в статье. Когда я пытаюсь запустить свой кусок кода, я получаю сообщение об ошибке:
NotSupported: содержимое ответа не является текстом.
Вот мой код:
import scrapy
from imagecrawl.items import ImagecrawlItem
class ImgspiderSpider(scrapy.Spider):
name = "imgspider"
start_urls = ['http://www.deccanheraldepaper.com/data/pp3-20190621_10/webepaper/photos/541862.png']
def parse(self, response):
link = response.css('div.flex_grid img::attr(srcset)').extract()
urls = []
for pairs in link:
for each in pairs.split(','):
urls.append(each[:-3].strip())
for img_url in urls:
yield ImagecrawlItem(image_urls=[img_url])
items.py
import scrapy
class ImagecrawlItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
image_urls = scrapy.Field()
images = scrapy.Field()
pass