Как выполнить массовую загрузку файлов из архива inte rnet [ОБЗОР] - PullRequest
1 голос
/ 27 марта 2020

В предыдущем вопросе, который я недавно опубликовал в Stack Overflow, Как выполнить массовую загрузку файлов из inte rnet архива , я подумал, что нашел способ решить мою проблему, используя минимальное количество команды, опубликованные в блоге справки по архиву Inte rnet , в качестве напоминания, вот их версия команд, размещенных в их блоге:

wget -r -H -nc -np -nH --cut-dirs=1 -A .pdf,.epub -e robots=off -l1 -i ./itemlist.txt -B 'http://archive.org/download/'

против моей собственной версии команд:

wget --cut-dirs=1 -A .pdf,.epub -e robots=off -i ./itemlist.txt -B 'http://archive.org/download/'

Команды работают так хорошо, но вместо этого у меня есть нужные мне файлы pdf и epub, случайные числовые расширения, такие как:

arxiv-1411.7162
arxiv-1412.0666
arxiv -1410.8703

et c ... После открытия этих файлов с помощью текстового редактора я выяснил, что это были html файлы. Я запустил некоторые из этих файлов с помощью локального браузера и веб-страницы с указанием ссылки на желаемую загрузку PDF в нижней части этих страниц. Я хочу знать, как я могу извлечь эти файлы автоматически без ручного вмешательства, и указать, следует ли мне изменить мои предыдущие шаги.

...