wget не загружает файлы на Amazon AWS S3 - PullRequest
0 голосов
/ 03 сентября 2018

Я пытался загрузить все слайды со следующей веб-страницы

https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html

Я использовал команду

wget --no-check-certificate --no-proxy -r -l 3 'https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html'

Я мог загружать только html и некоторые PNG файлы. Эти слайды размещены на Amazon S3, но я не смог их отсканировать с помощью приведенной выше команды. Сообщение, отображаемое на терминале:

Однако я мог бы загрузить эти слайды напрямую, используя команду ниже

wget http://spark-public.s3.amazonaws.com/nlp/slides/intro.pdf

Кто-нибудь знает почему? Как загрузить все слайды на этой странице с помощью одной команды?

1 Ответ

0 голосов
/ 03 сентября 2018

То, что вам нужно сделать, называется «Соскребание HTML». Это означает, что вы берете страницу HTML, а затем анализируете ссылки HTML внутри страницы. После разбора вы можете скачать, каталог и т. Д. Ссылки, найденные в документе (веб-странице).

Эта статья StackOverflow очень популярна для этой темы:

Параметры для очистки HTML?

...