Использование Wget или Curl.Как загрузить все файлы "index.html" по адресу, указанному в регулярном выражении - PullRequest
0 голосов
/ 15 июня 2019

Я застрял с простой задачей.Вот псевдокод того, что я пытаюсь сделать:

wget -i https://somesite/jobs/companies/*/addresses/index.html -o myfolder

Приведенный выше псевдокод должен поместить все адреса компании в мою папку.Структура адреса всегда одинакова: https://somesite/jobs/companies/<SOMECOMPANY>/addresses/.Что мне нужно, так это как-то сказать wget или curl, если хотите, загружать файлы на основе шаблона.

Что я пробовал до сих пор:

wget -spider -r --user-agent="wget" --accept-regex=".*?/companies/.*?/addresses/.*?\.html" https://jobs.somesite.com/companies/

Опция -spider говоритWget не загружать ничего.На данный момент, только файл wget получен, имеет адрес jobs.somesite.com/companies/index.html.

Вопрос в том.Как составить список адресов компании с приведенной схемой?

1 Ответ

0 голосов
/ 15 июня 2019

Либо я допустил ошибку в моей regexp строке, либо wget --accept-regex не понимает фильтр расширений файлов.

Команда, которая принимает и загружает полный список:

wget -m --user-agent="wget" -A="html" --regex-type=pcre --accept-regex=".*?/companies/.*?/offices/" https://jobs.somesite.com/companies/

Тем не менее сайт предоставляет динамический список компаний.Таким образом, была загружена только часть списка : P

...