Question

Я хочу загрузить множество файлов pdf по ссылкам в формате pdf, отсканированных пауками-спайсерами, но когда я использую scrapy.Request(pdf_url) в filepipeline для сканирования pdf-сети, в конечном итоге он загрузил неполные файлы pdf. все PDF-файлы были 1 КБ, кроме первых нескольких файлов (которые завершены). Мне пришлось использовать requests.get(pdf_url, stream=True) для полной загрузки всех файлов PDF, но это слишком медленно. Я хочу знать, имеет ли подобный метод подобный метод в scipes filesplines?

Dheeraj M Pai · Answer 1 · 11 июля 2019

Не совсем уверен, что scrapy может сделать эту работу.Вы можете использовать библиотеку wget для ее загрузки.

import wget
pdf_url = "url_of_the_pdf.pdf"
wget.download(pdf_url)

Может ли Scrapy скачать PDF полностью

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Может ли Scrapy скачать PDF полностью

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов