Question

Сценарий, подобный одному из моих предыдущих вопросов:

Используя wget, я набираю следующее, чтобы вывести images с сайта (подпапки):
```
 wget -r -A.jpg http://www.abc.com/images/
```
Я получаю два изображения из вышеприведенной команды - Img1, Img2.
Файл index.php в http://www.abc.com/images/ относится только к Img2.jpg (увидел источник).
Если я введу http://www.abc.com/images/Img4.jpg или http://www.abc.com/images/Img5.jpg, я получу два отдельных изображения.
Но эти изображения не загружаются wget.
Как мне получить весь набор изображений в http://www.abc.com/images/?

Salman A · Answer 1 · 02 июля 2011

Не совсем уверен, что вы хотите, но попробуйте это:

wget --recursive --accept=gif,jpg,png http://www.abc.com

Это будет:

Создать каталог с именем www.abc.com\
Просматривать все страницына www.abc.com
Сохраните все файлы .GIF, .JPG или .PNG в соответствующих каталогах под www.abc.com\

Затем вы можете удалить все каталоги, кроме той, которую выинтересует, а именно, www.abc.com\images\

Обход всех страниц - это трудоемкая операция, но, вероятно, единственный способ убедиться, что вы получаете все изображения, на которые ссылается любая из страниц www.abc.com .Нет другого способа определить, какие изображения присутствуют внутри http://abc.com/images/, если только сервер не разрешает просмотр каталогов.

Сканирование в Интернете и robots.txt - II

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сканирование в Интернете и robots.txt - II

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы