Я не могу сканировать данные, он показывает ошибку 504 Gatway timeout, я пытался использовать метод обхода UserAgent и Proxy Оба, но не помогает мне сканировать данные.
Я пытался scrapy-proxy -pool для прокси-метода и scrapy-user-agent для метода useragetn, но оба метода не работают.
получение 504 Тайм-аут шлюза
мой лоскут
import scrapy
import time
import random
class LaughfactorySpider(scrapy.Spider):
handle_httpstatus_list = [403, 504]
name = "myspider"
start_urls = ["mywebsitewebsite"]
def parse(self,response):
time.sleep(random.randint(0,4))
for site in response.xpath("//section[@class='test']/div/ul"):
item = {
'name': site.xpath("//li[@class='centr']//h2/span/text()").extract_first()
}
yield item
settings.py
###### For Dynamic Proxy
ROBOTSTXT_OBEY = True
ITEM_PIPELINES = {
'formsubmit_getresult.pipelines.FormsubmitGetresultPipeline': 300,
}
# To Enable Proxy
PROXY_POOL_ENABLED = True
DOWNLOADER_MIDDLEWARES = {
# ...
'scrapy_proxy_pool.middlewares.ProxyPoolMiddleware': 610,
'scrapy_proxy_pool.middlewares.BanDetectionMiddleware': 620,
# ...
}
####### For Dynamic USerAgent Middleware
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400,
}