Question

Я пытаюсь извлечь данные из https://www.marinetraffic.com/en/ais/details/ships/imo: 9829069 / , используя следующий паук scrapy, и затем я сохраняю ответ в файл. html.

# -*- coding: utf-8 -*-
import scrapy
from fake_useragent import UserAgent

class MarinetrafficSpider(scrapy.Spider):
    name = 'marinetraffic'
    allowed_domains = ['marinetraffic.com']
    ua = UserAgent()
    ua.update()

    def start_requests(self):
        urls = [
                    'https://www.marinetraffic.com/en/ais/details/ships/imo:9829069/'
            ]
        headers= {'User-Agent': self.ua['google chrome'] }
        for url in urls:
            yield scrapy.Request(url, callback=self.parse, headers=headers)

    def parse(self, response):
        with open('file.html', 'wb') as f:
            f.write(response.body)
        self.log('Saved file')

Но я не принимаю ожидаемый ответ. Возвращенный ответ находится в файле. html

Пожалуйста, проверьте результаты debug .

Какие изменения необходимо внести в приведенный выше код, чтобы возвращаемый ответ совпадал с ответом, полученным из браузера?

Я буду оценивать ваши замечания.

Как очищать суда от MarineTraffic

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как очищать суда от MarineTraffic

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы