Извлечь все URL со всего сайта - PullRequest
0 голосов
/ 06 апреля 2011

Я хочу сканировать веб-сайт, используя C # или VB.NET.Я бы хотел, чтобы сканер извлекал URL-адрес с веб-страницы, и я бы хотел, чтобы сканер следовал за URL-адресами, чтобы я мог извлечь все URL-адреса с веб-сайта.

Как мне написать это?

1 Ответ

1 голос
/ 06 апреля 2011

Что такое веб-сайт в этом случае?

Локальный виртуальный каталог? Статическая веб-страница? Динамические страницы где-то размещены?

Посмотрите на

wget --mirror

У Curl тоже могут быть опции.

Также, пожалуйста, прочитайте о robots.txt, прежде чем вы начнете очищать сеть:)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...