Скрап на aws ec2 ubuntu редирект для booking.com - PullRequest
0 голосов
/ 28 августа 2018

com scrapper, который работает локально, но на AWS нет. Я получаю перенаправление, а затем паук перестает работать. Какой-то код:

class HotelsCrawler(CrawlSpider):
    name = "booking_crawler"
    allowed_domains = ['booking.com']
    headers = {
        "User-Agent": "Mozilla/5.0(Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Mobile Safari/537.36",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
        "Host": "www.booking.com"
    }
    resultHotels = pd.DataFrame(columns=['hotel_id', 'name', 'score', 'price'])
    fileName = ''
    startDate = None
    endDate = None
    city = ''

    def start_requests(self):
        url = "https://www.booking.com/searchresults.pl.html?ss=Berlin&is_ski_area=0&dest_type=city&checkin_monthday=28&checkin_month=8&checkin_year=2018&checkout_monthday=29&checkout_month=8&checkout_year=2018&no_rooms=1&group_adults=2&group_children=0)
        yield Request(url=url,headers=self.headers, callback=self.parse)

И журналы:

2018-08-28 11:14:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.booking.com/robots.txt> (referer: None)
2018-08-28 11:14:01 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://www.booking.com/searchresults.pl.html?dest_type=city;ss=Berlin> from <GET https://www.booking.com/searchresults.pl.html?ss=Berlin&is_ski_area=0&dest_type=city&checkin_monthday=28&checkin_month=8&checkin_year=2018&checkout_monthday=29&checkout_month=8&checkout_year=2018&no_rooms=1&group_adults=2&group_children=0>
2018-08-28 11:14:02 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.booking.com/searchresults.pl.html?dest_type=city;ss=Berlin> (referer: None)
2018-08-28 11:14:02 [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'www.booking.comhttps': <GET https://www.booking.comhttps//www.booking.com/searchresults.pl.html?dest_id=-1746443&dest_type=city&ss=Berlin&offset=20&pagination_used=1>
2018-08-28 11:14:02 [scrapy.core.engine] INFO: Closing spider (finished)

Во второй строке вы видите, что есть перенаправление, которое у меня не локально, а затем происходит нечто странное с URL. Я использую бесплатный уровень AWS EC2 с Ubuntu.

EDIT: Я запустил этот код на DigitalOcean и он работает

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...