Question

Я хочу узнать больше о сканерах, поигравшись с инструментом wget.Я заинтересован в том, чтобы сканировать сайт моего отдела и найти первые 100 ссылок на этом сайте.Пока команда ниже - то, что я имею.Как ограничить остановку сканера после 100 ссылок?

wget -r -o output.txt -l 0 -t 1 --spider -w 5 -A html -e robots=on "http://www.example.com"

Wolph · Answer 1 · 12 февраля 2011

Вы не можете. wget не поддерживает это, поэтому, если вы хотите что-то подобное, вам придется написать инструмент самостоятельно.

Вы можете получить основной файл, разобрать ссылки вручную и извлечь их одну за другой с ограничением в 100 элементов. Но это не то, что поддерживает wget.

Вы также можете взглянуть на HTTrack для сканирования веб-сайтов, у него есть несколько дополнительных опций для этого: http://www.httrack.com/

Olivier Delouya · Answer 2 · 06 июля 2016

Создайте файл fifo (mknod / tmp / httpipe p)
сделайте вилку
- в дочернем элементе wget --spider -r -l 1 http://myurl --output-file /tmp/httppipe
- в папе:читать построчно /tmp/httpipe
- анализировать вывод =~ m{^\-\-\d\d:\d\d:\d\d\-\- http://$self->{http_server}:$self->{tcport}/(.*)$}, print $1
- считать строки;после 100 строк просто закройте файл, он сломает канал

Сканирование веб-сайта с помощью wget и ограничение общего количества просканированных ссылок

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сканирование веб-сайта с помощью wget и ограничение общего количества просканированных ссылок

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы