Как загрузить все перечисленные файлы с веб-страницы, где в URL не определены имена файлов - PullRequest
0 голосов
/ 28 октября 2011

Я хотел бы загрузить все наборы данных с этой страницы: http://www.data.gov/catalog/geodata/category/0/agency/0/filter/sort/page/1/count/20

Я пробовал wget, но вот проблема:

В URL-адресе, указывающем на файл, нет имени файла, и они могут иметь разные типы файлов.

Вот пример URL-адреса файла: http://www.data.gov/download/CECA1FB2-EA36-537B-8C68-298CCA449697/geodata

Шаблон состоит в том, что все URL начинаются с http: // www.data.gov/download/ и заканчиваются на / geodata

Каков наилучший способ очистить этот сайт? Должен ли я использовать wget, cURL, PHP-скрипт или что-то еще?

1 Ответ

0 голосов
/ 09 ноября 2011

Почему в этом случае не работает wget?Исходя из ваших примеров URL, рекурсивный поиск wget поместит каждый загруженный файл в файл «геоданных» в своем собственном каталоге.Как только они появятся на вашем локальном диске, вы можете делать с данными как вам угодно, включая переименование и перемещение файлов в более удобную форму (например, с помощью mmv или команды find -exec).

...