Я искал много тем, но, похоже, не нашел ответа на мой конкретный вопрос.Я создал паук сканирования для веб-сайта, и он отлично работает.Затем я сделал похожий, чтобы сканировать похожий веб-сайт, но на этот раз у меня возникла небольшая проблема.До дела:
мой стартовый URL выглядит следующим образом: www.example.com.Страница содержит ссылки, которые я хочу применить, мой паук выглядит так:
- www.example.com / locationA
- www.example.com / locationB
- www.example.com / locationC
...
У меня теперь есть проблема: каждый раз, когда я вношу начальный URL, он автоматически перенаправляется на www.example.com/locationAи все ссылки, которые я получил, работая с моим пауком, включают
- www.example.com / locationB
- www.example.com / locationC ...
Поэтому моя проблема заключается в том, как я могу включить www.example.com/locationA в возвращенные URL-адреса. Я даже получил информацию журнала, например:
-2011-11-28 21: 25: 33 + 1300 [пример.com] DEBUG: перенаправление (302) с http://www.example.com/>
-2011-11-28 21: 25: 34 + 1300 [example.com] DEBUG: перенаправление (302) на (реферер: нет)
- 2011-11-28 21: 25: 37 + 1300 [example.com] ОТЛАДКА: Перенаправление (302) на (реферер: www.example.com/locationB)
Распечатайте с parse_item: www.example.com/locationB
....
Я думаю, что проблема может быть связана с этим (реферер: нет).Может ли кто-нибудь пролить свет на это ??
Я сузил эту проблему, изменив начальный URL-адрес на www.example.com/locationB.Поскольку все страницы содержат списки всех мест, на этот раз мой паук работает на:
-www.example.com / locationA
-www.example.com / locationC ...
В ореховой оболочке я ищу способ включить URL-адрес, который совпадает с (или перенаправляется с) стартовым URL-адресом, в список, над которым будет работать обратный вызов parse_item.