com scrapper, который работает локально, но на AWS нет. Я получаю перенаправление, а затем паук перестает работать. Какой-то код:
class HotelsCrawler(CrawlSpider):
name = "booking_crawler"
allowed_domains = ['booking.com']
headers = {
"User-Agent": "Mozilla/5.0(Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Mobile Safari/537.36",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
"Host": "www.booking.com"
}
resultHotels = pd.DataFrame(columns=['hotel_id', 'name', 'score', 'price'])
fileName = ''
startDate = None
endDate = None
city = ''
def start_requests(self):
url = "https://www.booking.com/searchresults.pl.html?ss=Berlin&is_ski_area=0&dest_type=city&checkin_monthday=28&checkin_month=8&checkin_year=2018&checkout_monthday=29&checkout_month=8&checkout_year=2018&no_rooms=1&group_adults=2&group_children=0)
yield Request(url=url,headers=self.headers, callback=self.parse)
И журналы:
2018-08-28 11:14:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.booking.com/robots.txt> (referer: None)
2018-08-28 11:14:01 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://www.booking.com/searchresults.pl.html?dest_type=city;ss=Berlin> from <GET https://www.booking.com/searchresults.pl.html?ss=Berlin&is_ski_area=0&dest_type=city&checkin_monthday=28&checkin_month=8&checkin_year=2018&checkout_monthday=29&checkout_month=8&checkout_year=2018&no_rooms=1&group_adults=2&group_children=0>
2018-08-28 11:14:02 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.booking.com/searchresults.pl.html?dest_type=city;ss=Berlin> (referer: None)
2018-08-28 11:14:02 [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'www.booking.comhttps': <GET https://www.booking.comhttps//www.booking.com/searchresults.pl.html?dest_id=-1746443&dest_type=city&ss=Berlin&offset=20&pagination_used=1>
2018-08-28 11:14:02 [scrapy.core.engine] INFO: Closing spider (finished)
Во второй строке вы видите, что есть перенаправление, которое у меня не локально, а затем происходит нечто странное с URL.
Я использую бесплатный уровень AWS EC2 с Ubuntu.
EDIT:
Я запустил этот код на DigitalOcean и он работает