Решаем рекапчу с помощью скрапа - PullRequest
1 голос
/ 06 марта 2019

Я использую scrapy для сканирования некоторых веб-страниц.Но в какой-то момент Google reCAPTCHA блокирует путь.

Google reCAPTCHA даже не загружается, если в браузере (в данном случае scrapy) нет работающего javascript.Он просто просит вас включить ваш javascript для просмотра и решения reCAPTCHA.

Итак, я думаю, что, если я смогу найти способ показать этот reCAPTCHA пользователю, когда это произойдет, пользователь сможет вручную решить эту проблему, и scrapy будет продолжать сканировать, но я не смог прервать этот процесс с помощьюнастоящий javascript.Что я могу использовать на этом этапе?Можно ли смешать селен с помощью скрапа?

1 Ответ

0 голосов
/ 06 марта 2019

Звучит так, будто вы хотите что-то построить полу - автоматическое. Scrapy не подходит для этого, и, как вы говорите, он не может обрабатывать javascript.

Я бы порекомендовал попробовать селен. Он запускает полнофункциональный браузер Chrome и поддерживает сценарии. См. https://selenium -python.readthedocs.io /

Вы можете остановить сценарий и какое-либо событие (например, reCAPTCHA), а затем позволить пользователю вступить во владение.

...