Пишу мой первый веб-сканер - PullRequest
3 голосов
/ 10 ноября 2010

Я пытался найти что-то хорошее, как это сделать, или какой-то пример, который хорош для начинающих, когда речь идет о написании вашего первого веб-сканера. Я хотел бы написать это на C #. Есть ли у кого-нибудь хороший пример кода, которым можно поделиться, или несколько советов на некоторых сайтах, где я могу найти информацию для c #, и какой-то хитрый веб-обход

Спасибо

Ответы [ 3 ]

4 голосов
/ 11 ноября 2010

HtmlAgilityPack ваш друг.

3 голосов
/ 11 ноября 2010

Да, HtmlAgeilityPack - хороший инструмент для анализа HTML, но этого явно недостаточно.

Существует 3 элемента для сканирования:

1) Сканирование само по себе, т.е.веб-сайты: Это может быть сделано путем отправки запросов на случайные IP-адреса, но это не работает, так как многие веб-сайты используют общий IP-адрес HTTP с заголовком узла, поэтому использование IP не затрагивает его.С другой стороны, слишком много IP-адресов не используется или не размещает веб-сервер, поэтому это никуда вас не приведет.

Я предлагаю вам отправить запрос в Google (поиск слов из словаря) и сканироватьрезультаты возвращаются.

2) Рендеринг контента: Многие веб-сайты генерируют контент HTML в JavaScript при загрузке формы, поэтому, если вы отправите простой запрос, он не сможетзахватить контент, который сможет увидеть пользователь.Вы должны отобразить страницу так, как это делает браузер, и это можно сделать с помощью Webkit.net , который является инструментом с открытым исходным кодом, хотя все еще находится в бета-версии.HTML: используйте пакет HTML, и есть множество примеров в Интернете.Это также может быть использовано для сканирования сайта.

2 голосов
/ 11 ноября 2010

Некоторое время назад я также хотел написать собственный веб-сканер и нашел этот документ:

Web Crawler

В нем есть много полезной информациихорошо написано ИМО.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...