Сканирование в Интернете и robots.txt - II - PullRequest
0 голосов
/ 02 июля 2011

Сценарий, подобный одному из моих предыдущих вопросов:

  1. Используя wget, я набираю следующее, чтобы вывести images с сайта (подпапки):

     wget -r -A.jpg http://www.abc.com/images/
    
  2. Я получаю два изображения из вышеприведенной команды - Img1, Img2.

  3. Файл index.php в http://www.abc.com/images/ относится только к Img2.jpg (увидел источник).

  4. Если я введу http://www.abc.com/images/Img4.jpg или http://www.abc.com/images/Img5.jpg, я получу два отдельных изображения.

  5. Но эти изображения не загружаются wget.

  6. Как мне получить весь набор изображений в http://www.abc.com/images/?

1 Ответ

1 голос
/ 02 июля 2011

Не совсем уверен, что вы хотите, но попробуйте это:

wget --recursive --accept=gif,jpg,png http://www.abc.com

Это будет:

  1. Создать каталог с именем www.abc.com\
  2. Просматривать все страницына www.abc.com
  3. Сохраните все файлы .GIF, .JPG или .PNG в соответствующих каталогах под www.abc.com\

Затем вы можете удалить все каталоги, кроме той, которую выинтересует, а именно, www.abc.com\images\

Обход всех страниц - это трудоемкая операция, но, вероятно, единственный способ убедиться, что вы получаете все изображения, на которые ссылается любая из страниц www.abc.com .Нет другого способа определить, какие изображения присутствуют внутри http://abc.com/images/, если только сервер не разрешает просмотр каталогов.

...