Как я могу получить все HTML-страницы из подпапки сайта с помощью Perl? - PullRequest
0 голосов
/ 04 октября 2010

Можете ли вы подсказать мне, как получить все файлы HTML в подпапке и все папки в ней на веб-сайте? Например: www.K.com/goo

Мне нужны все файлы HTML, которые находятся на: www.K.com/goo/1.html, ...... n.html

Кроме того, если есть подпапки, поэтому я хочу получить их также: www.K.com/goo/foo/1.html...n.html

Ответы [ 6 ]

2 голосов
/ 04 октября 2010

Предполагая, что у вас нет доступа к файловой системе сервера, тогда, если у каждого каталога нет индекса файлов, которые он содержит, вы не можете быть гарантированы для достижения этого.

Обычным способом было бы использовать веб-сканер и надеяться, что все файлы, на которые вы хотите, ссылаются с найденных вами страниц.

1 голос
/ 04 октября 2010

Посмотрите на lwp-mirror и следуйте его примеру.

0 голосов
/ 04 октября 2010

Вы также можете использовать curl, чтобы получить все файлы из папки сайта. Посмотрите на эту справочную страницу и перейдите в раздел -o / - output, который дает вам хорошее представление об этом. Я использовал это пару раз.

0 голосов
/ 04 октября 2010

Существует также ряд полезных модулей на CPAN, которые будут называться «Spider» или «Crawler». Но Ишнид прав. Они найдут только файлы, которые связаны где-то на сайте. Они не найдут каждый файл в файловой системе.

0 голосов
/ 04 октября 2010

Я бы предложил использовать программу wget для загрузки веб-сайта, а не Perl, это не очень хорошо подходит для этой проблемы.

0 голосов
/ 04 октября 2010

Чтение perldoc File::Find, затем use File::Find.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...