Извлечь все ссылки с веб-страницы (веб-сканер) - PullRequest
0 голосов
/ 28 февраля 2012

Я хочу разработать приложение, которое я предоставляю URL определенного веб-сайта, и оно извлекает все ссылки с этой веб-страницы.Здесь веб-страница, которую я хочу присвоить своему приложению в качестве URL, разработана Asp.net и содержит кнопку поиска, GridView для отображения результата и DataPager, а GridView содержит элемент управления HyperLinkField для привязки к результату поиска.

Когда я щелкаю по кнопке «Поиск» на странице цели, страница отправляется обратно и отображает результаты поиска с помощью GridView без изменения URL-адреса страницы.

Например, если в результате поиска имеется 500 записей и дата-пейджер.PageSize = 10, тогда у нас есть 50 страниц.

Теперь я хочу знать, возможно ли извлечь из моего приложения все 500 ссылок, привязанных к Gridview одновременно, кроме открытия всех 50 страниц и извлечения любой страницы по однойс моим приложением?

Спасибо.

Ответы [ 2 ]

3 голосов
/ 28 февраля 2012

HTML Agility Pack - лучший инструмент, который я нашел для очистки URL-адресов.

Ваш вопрос гораздо шире (кажется, вы спрашиваете, как написать все приложение). Я предлагаю вам начать с прочтения HTML Agility Pack, попробовать некоторые примеры, чтобы очистить ссылки со страницы, а затем задать более конкретные вопросы, если вы застряли на том, что делать дальше.

1 голос
/ 29 февраля 2012

Вы можете проанализировать страницу ASP.NET с постбэками:

Разобрать страницу .Net с постбэками
http://www.dreamincode.net/forums/topic/57101-website-scraping-and-postback/

...