Wget - загрузка всех файлов на веб-странице? - PullRequest
0 голосов
/ 03 мая 2018

Я использую эту команду wget для загрузки всех файлов .fits с этого URL :

wget -r -np -nd -l inf -A fits https://archive.stsci.edu/missions/tess/ete-6/tid/00/000/000/057/

Это основано на адаптации этот ответ .

Все, что я получаю, - это структура каталогов, которая полностью отражает URI на сайте вплоть до / 057 /, но файла нет.

Если я добавлю -nd, то получу только файлы robot.txt, которые не очень поучительны, но по-прежнему отсутствуют.

Что я не понимаю, как использовать для этого wget?

РЕДАКТИРОВАТЬ: основываясь на ответе Тургбека, приведенном ниже, я вижу, что файл robot.txt с этого веб-сайта на самом деле содержит / missions / в «Disallow» ... возможно, именно это мешает мне использовать команду wget? Это источник проблемы? Как я могу обойти это?

1 Ответ

0 голосов
/ 03 мая 2018

В robots.txt есть утверждение:

Запретить: / миссии /

Где находятся ваши запрошенные файлы. Так как URL-адрес создается как /missions/tess/ete-6/tid/00/000/000/057/, я считаю, что robots.txt блокирует вас.

Я сохранил два файла с этого URL в моем Raspberry Pi и провел локальный тест без robots.txt. С помощью этой команды:

wget -r -np -nd -l inf -A подходит 192.168.1.250/test/

Он работал как положено, и я получил оба файла.

--2018-05-03 23:46:51--  http://192.168.1.250/test/tess2019128220341-0000000005712108-0016-s_lc.fits
Reusing existing connection to 192.168.1.250:80.
HTTP request sent, awaiting response... 200 OK
Length: 2090880 (2.0M)
Saving to: `192.168.1.250/test/tess2019128220341-0000000005712108-0016-s_lc.fits'

100%[==============================================================================>] 2,090,880   3.77M/s   in 0.5s

2018-05-03 23:46:51 (3.77 MB/s) - `192.168.1.250/test/tess2019128220341-0000000005712108-0016-s_lc.fits' saved [2090880/2090880]

--2018-05-03 23:46:51--  http://192.168.1.250/test/tess2019128220341-0000000005715814-0016-s_lc.fits
Reusing existing connection to 192.168.1.250:80.
HTTP request sent, awaiting response... 200 OK
Length: 2090880 (2.0M)
Saving to: `192.168.1.250/test/tess2019128220341-0000000005715814-0016-s_lc.fits'

100%[==============================================================================>] 2,090,880   4.61M/s   in 0.4s

2018-05-03 23:46:52 (4.61 MB/s) - `192.168.1.250/test/tess2019128220341-0000000005715814-0016-s_lc.fits' saved [2090880/2090880]
...