Сканирование в Интернете и robots.txt - PullRequest
0 голосов
/ 29 июня 2011

Я использовал wget для «загрузки» сайта.

wget -r http://www.xyz.com

i) Возвращает файл .css , файл .js , index.php и изображение img1.jpg

ii) Однако в xyz.com существует больше изображений. Я набрал www.xyz.com / Img2.jpg и, следовательно,

получил изображение.

iii) Но index.php относится к одному изображению, т.е. img1.jpg .

iv) Файл с роботом сопровождает файл, содержащий Disallow:

Какие изменения нужно внести в командную строку, чтобы вернуть все под xyz.com , которые не

упоминается в index.php , но является статическим в каталоге.

1 Ответ

5 голосов
/ 29 июня 2011

Не возможно. Как wget знать о других файлах в каталоге, если у вас нет ссылки на файл где-нибудь?

...