Может ли Scrapy скачать PDF полностью - PullRequest
0 голосов
/ 11 июля 2019

Я хочу загрузить множество файлов pdf по ссылкам в формате pdf, отсканированных пауками-спайсерами, но когда я использую scrapy.Request(pdf_url) в filepipeline для сканирования pdf-сети, в конечном итоге он загрузил неполные файлы pdf. все PDF-файлы были 1 КБ, кроме первых нескольких файлов (которые завершены). Мне пришлось использовать requests.get(pdf_url, stream=True) для полной загрузки всех файлов PDF, но это слишком медленно. Я хочу знать, имеет ли подобный метод подобный метод в scipes filesplines?

1 Ответ

0 голосов
/ 11 июля 2019

Не совсем уверен, что scrapy может сделать эту работу.Вы можете использовать библиотеку wget для ее загрузки.

import wget
pdf_url = "url_of_the_pdf.pdf"
wget.download(pdf_url)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...