Scrapy Splash приводит к 504 - PullRequest
       20

Scrapy Splash приводит к 504

0 голосов
/ 04 января 2019

Я пытаюсь почистить страницу одного специального отеля, чтобы узнать цены на ближайшие 28 дней. Я подозреваю, что меня блокируют, но я не совсем уверен.

Я получаю некоторые результаты, но не все. Я даже пытался использовать различные пользовательские агенты, задержка загрузки 30, httpcahce включен и т. Д.

Это мой lua-скрипт

    function main(splash, args)
      splash.private_mode_enabled = false
      splash.js_enabled = true
      splash.images_enabled = false
      assert(splash:go(args.url))       
      function wait_for(splash, condition)
        while not condition() do
            splash:wait(20.0)
      end
      end

      wait_for(splash, function()
        return splash:evaljs("document.querySelector('ul.availability-table-revamp') != null")
      end)

      assert(splash:wait(30.0))
      splash:set_viewport_full()
      return {
        html = splash:html(),
      }
    end

Страница, которую я сканирую, [здесь] [1].

Как я могу точно знать, что страница блокирует меня? Там нет политики на страницах отелей - но есть (конечно) на главной странице двигателя ...

У меня, конечно, есть еще код, который можно показать, но я думаю, что единственное, что может исправить это, это lua. Но если вы хотите увидеть больше, полный код здесь : -)

Конечно, надеюсь, что ты умнее меня (я думаю, я уже знаю ответ на этот вопрос).

1 Ответ

0 голосов
/ 04 января 2019

Иногда веб-пользователь блокирует ip, попробуйте использовать другой proxy servers, так как он доступен через мою систему.

...