Мой скребок не работает на Google-Compute-Engine с 403 запрещено - PullRequest
0 голосов
/ 20 декабря 2018

Я написал веб-скребок с python3.6, и он хорошо работает на моем собственном сервере.

Когда я пытаюсь запустить его (точно такой же URL) на моем google-compute-engine, он не работает с HTTP Error 403: Forbidden.

Мой код и результат на моем сервере

Опять же, он хорошо работает.

>>> import urllib.request
>>> from bs4 import BeautifulSoup
>>> response = urllib.request.urlopen("http://www.kumkangho.co.kr/bk.popup.info.php?date=20190413&pa_uid=1")
>>> print(response.readline())
b'<!-- <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> -->\r\n'

Результат на google-compute-engine

enter image description here

Я думаю, что он заблокирован не сервером, на который идет URL, а GCE.

1 Ответ

0 голосов
/ 21 декабря 2018

После нескольких испытаний я обнаружил, что противоположный сервер блокирует доступ из нежелательных стран.

Я установил http_proxy, и теперь он работает.

@ Supratik Majumdar спасибо заваша помощь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...