Мой скребок Amazon случайно перестал работать на моем сервере (с прокси), но работает с теми же прокси на моем домашнем компьютере - PullRequest
0 голосов
/ 15 апреля 2020

Мой амазонский скребок работал нормально, когда я неожиданно начал получать капчу. Однако, когда я запускаю скрипт на моем домашнем компьютере p c, он работает просто отлично. Я использую одни и те же прокси в обоих случаях.

Это соответствующий раздел моего кода -

response = s.get(url, headers=headers, proxies=proxies)
soup = bs(response.text, 'lxml')

Я использую ProxyManager для форматирования моих прокси из файла .txt, если это имеет значение.

Любой помощь будет принята с благодарностью - я полностью потерян.

1 Ответ

0 голосов
/ 27 апреля 2020

Одна из проблем, с которой обычно сталкиваются при очистке Amazon, заключается в том, что они требуют правильного заполнения заголовка пользовательского агента, в противном случае вы получите капчу

. Это может выглядеть примерно так

DEFAULT_REQUEST_HEADERS = { 'user-agent': 'Mozilla / 5.0 (X11; Linux x86_64) AppleWebKit / 537.36 (K HTML, как Gecko) Chrome / 79.0.3945.117 Safari / 537.36'}

В этом случае если вы хотите, чтобы скребок был запущен в данный момент, этот код взят из проекта Scrapy, используемого для очистки Amazon для отзывов

...