Wget скачать PDF - PullRequest
       8

Wget скачать PDF

0 голосов
/ 20 февраля 2020

Я пытаюсь загрузить PDF-файл, используя wget .

Когда я:

wget <url>, он загружает поврежденный файл, однако, если я запускаю wget -i test.txt с pdf URL внутри этого тестового текстового файла он работает, и файл не поврежден.

Кто-нибудь знает почему?

Из журналов я вижу следующее.

В первом случае загружается страница с найденной заметкой.

Длина: 11322 (11K) [text / html] Сохранение в: 'media.nl?id= 39194,1 '

Во втором это правильный pdf.

Длина: 58272 (57K) [приложение / pdf] Сохранение в:' media.nl?id= 39194 & c = 4667446 & h = 34c63dbaaa7adc7c8a33 & _xt = .pdf '

Спасибо,

Ответы [ 2 ]

2 голосов
/ 20 февраля 2020

Поместите ваш URL в кавычки. Не цитирование URL может привести к странным эффектам, в вашем случае & интерпретируется оболочкой.

Например:

wget "https://www.roofingsuppliesuk.co.uk/core/media/media.nl?id=39194&c=4667446&h=34c63dbaaa7adc7c8a33&_xt=.pdf"

или

wget 'https://www.roofingsuppliesuk.co.uk/core/media/media.nl?id=39194&c=4667446&h=34c63dbaaa7adc7c8a33&_xt=.pdf'

или с экранированием &

wget https://www.roofingsuppliesuk.co.uk/core/media/media.nl?id=39194\&c=4667446\&h=34c63dbaaa7adc7c8a33\&_xt=.pdf
1 голос
/ 20 февраля 2020

У меня возникла та же проблема, но я изменил команду на эту, а затем она работала нормально, когда я ее протестировал:

Wget —-no-check-certificate https://www.roofingsuppliesuk.co.uk/core/media/ 'media .nl? id = 39194 & c = 4667446 & h = 34c63dbaaa7adc7c8a33 & _xt = .pdf '

я просто добавил одинарные кавычки, начинающиеся с' media.nl ....... pdf '

Убедитесь, что файл с таким же именем не существует. Вам не нужно добавлять --no-check-Certificate, если вы не получаете ошибку самозаверяющего сертификата

...