Как избежать перенаправления - PullRequest
2 голосов
/ 25 сентября 2011

Я пытаюсь проанализировать сайт (написанный на ASP), и сканер перенаправляется на основной сайт. Но то, что я хотел бы сделать, это проанализировать данный URL, а не перенаправленный. Есть ли способ сделать это?. Я попытался добавить "REDIRECT = False" в файл settings.py безуспешно.

Вот некоторые выходные данные сканера:

2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=500&id=500>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1513&id=1513>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=476&id=476>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=472&id=472>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=457&id=457>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097>

Ответы [ 2 ]

2 голосов
/ 25 сентября 2011

http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097 перенаправляет на http://www.cotodigital.com.ar/default.asp, потому что HTTP-ответ сказал так. Это происходит из-за того, что asp-код проверяет какое-то условие - неправильную страницу, куки, или пользовательский агент, или реферер Проверьте указанные условия.

UPDATE: Только что проверил в моем браузере: браузер также перенаправлен на главную страницу, где я нажимаю «Пропустить рекламу». После этого все работает нормально.

Это означает, что он устанавливает некоторые файлы cookie, без которых он перенаправляет на главную страницу.

См. Также Scrapy - как управлять файлами cookie / сеансами

1 голос
/ 25 сентября 2011

Оригинальный URL не имеет ничего, чтобы очистить.Он вернул 302, что означает отсутствие тела, а заголовок Location указывает, куда перенаправить.Вам необходимо выяснить, как получить доступ к URL-адресу без перенаправления, возможно, путем аутентификации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...