Базовый сканер / скребок, который может предоставить все URL под родительским URL - PullRequest
1 голос
/ 03 апреля 2012

Учитывая родительский URL (скажем "http://dir.yahoo.com/News_and_Media/"), Я хочу очистить все URL, которые находятся на этой странице и до глубины X.

Я не хочу переходить в другой домен, даже если это требует критерий глубины. Ex. При переходе к «http://dir.yahoo.com/News_and_Media/" я не хочу углубляться в глубину 2, которая не включена в« dir.yahoo.com ».

Для этой вещи должен быть доступен какой-то инструмент.

Ответы [ 2 ]

3 голосов
/ 03 апреля 2012

http://www.gnu.org/software/wget/

В частности, в вашем случае вам понадобятся следующие параметры командной строки:

$ wget -r http://www.example.com/ -l X

где, очевидно, вы бы заменили "http://www.example.com/" на выбранный вами URL, а" X "на нужную глубину.

2 голосов
/ 03 апреля 2012

попробуй winhttrack

...