Загрузка веб-страницы в формате pdf в формате pdf с использованием Python - PullRequest
1 голос
/ 22 апреля 2019

Здесь указан метод загрузки веб-страницы в формате pdf, который работает.

Однако интересующий меня веб-сайт также отображает сам PDF, поэтому этот метод не работает.Например, это страница.Есть ли что-то конкретное для таких URL?

Когда я использую пост, которым я поделился выше, я получаю следующую ошибку:

OSError: wkhtmltopdf reported an error:
Loading pages (1/6)
Error: Failed loading page http://curia.europa.eu/juris/showPdf.jsf;jsessionid=CAE85693A88870E357F61ED4344FD7E9?text=&docid=62809&pageIndex=0&doclang=EN&mode=lst&dir=&occ=first&part=1&cid=2878455 (sometimes it will work just to ignore this error with --load-error-handling ignore)
Exit with code 1, due to unknown error.

1 Ответ

3 голосов
/ 22 апреля 2019

Здесь вам поможет более или менее базовое использование пакета запросов.(Это только немного причудливо, если разбить результат на части.)

import requests
outpath = './out.pdf'
url = r"""http://curia.europa.eu/juris/showPdf.jsf;jsessionid=03B8AD93D8D1B1FBB33A15FDA3774709?text=&docid=62809&pageIndex=0&doclang=EN&mode=lst&dir=&occ=first&part=1&cid=2874259"""
r = requests.get(url, stream=True)
if r.status_code == 200:
    with open(outpath, 'wb') as f:
        for chunk in r.iter_content(1024):
            f.write(chunk)

Подробнее о запросах см .: https://2.python -requests.org // ru / master /

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...