Загрузка файлов PDF с помощью Scrapy - PullRequest
0 голосов
/ 13 ноября 2011

Я копирую pdf файлы с сайта, используя Scrapy, фреймворк для просмотра веб-страниц Python.

Сайт должен пройти тот же сеанс, чтобы вы могли скачать PDF.

Он отлично работает с Scrapy's, потому что он полностью автоматизирован, но когда я запускаю скрипт через пару секунд, он начинает выдавать мне поддельные pdf-файлы, например, когда я пытаюсь получить прямой доступ к pdf, без моей сессии.

Почему это так и есть идеи, как преодолеть эту проблему!?

1 Ответ

0 голосов
/ 13 ноября 2011

Я думаю, что сайт отслеживает вашу сессию. Если это сайт PHP, передайте файл cookie PHPSESSID в запрос на загрузку файла PDF.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...