Ошибка Scrapy: Игнорирование ответа <404 ...>: код состояния HTTP не обработан или не разрешен - PullRequest
0 голосов
/ 09 апреля 2019

Я новичок в области терапии, и это, вероятно, довольно тривиально.В любом случае я получаю следующую ошибку:

INFO: Ignoring response <404 http://www.geographie.uni
muenchen.de/department/fiona/studium/fuer_studierende/termine/index.html/>:
HTTP status code is not handled or not allowed

Я попытался изменить пользовательский агент в файле settings.py безуспешно.У кого-нибудь есть другая идея?Спасибо

мой код:

import scrapy

class DepartmentSpider(scrapy.Spider):
    name = 'department'
    start_urls = ['http://www.geographie.uni-muenchen.de/department/fiona/studium/fuer_studierende/termine/index.html/']

    def parse(self, response):
        for row in response.xpath('//table[2]/tbody'):
            yield {
                'Art' : row.xpath('td[1]//text()').extract_first(),
                'Belegfrist': row.xpath('td[2]//text()').extract_first(),
                'Klausur' : row.xpath('td[3]//text()').extract_first(),
            }

1 Ответ

1 голос
/ 09 апреля 2019

У вас есть косая черта в конце URL в start_urls. Без этого все должно работать нормально.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...