wget не загружает файлы, к которым я могу получить доступ через браузер - PullRequest
0 голосов
/ 11 мая 2018

Я историк-любитель, пытающийся получить доступ к газетным архивам.Сервер, на котором расположены сканы, «работает», используя устаревший просмотрщик tif, который, похоже, больше не работает.Я могу получить доступ к файлам по отдельности в Chrome, не входя в систему, но когда я пытаюсь использовать wget или curl, мне говорят, что просмотр файла является неавторизованным, даже когда я использую свои данные для входа и даже при использовании моих файлов cookie из Chrome.

Вот пример одного из файлов: https://ulib.aub.edu.lb/nahar/images2/7810W2/78101001.TIF

Когда я помещаю это в Chrome, он автоматически загружает файл, хотя я не могу получить доступ к самому каталогу, но когда я используюwget, я получаю следующий ответ: «Не удалось авторизовать 401 неавторизованное имя пользователя / пароль.»

Это базовая команда wget, которую я использую (если я могу заставить ее работать вообще, то я введусписок других файлов):

wget --no-check-certificate https://ulib.aub.edu.lb/nahar/images2/7810W2/78101001.TIF

Я пробовал варианты с и без файлов cookie, с пустым пользователем, с учетными данными и без учетных данных. Как я уверен, вы можете сказать, я новичок втакого рода вещи, но хотят учиться.

1 Ответ

0 голосов
/ 11 мая 2018

Из того, что я вижу, аутентификация на вашем сайте выполняется с помощью HTTP basic.Этот тип аутентификации не использует HTTP-куки, он использует HTTP-заголовок авторизации.Вы можете передать основные учетные данные HTTP в wget со следующими аргументами.

wget --http-user=YourUsername --http-password=YourPassword https://ulib.aub.edu.lb/nahar/images2/7810W2/78101001.TIF
...