Да, HtmlAgeilityPack - хороший инструмент для анализа HTML, но этого явно недостаточно.
Существует 3 элемента для сканирования:
1) Сканирование само по себе, т.е.веб-сайты: Это может быть сделано путем отправки запросов на случайные IP-адреса, но это не работает, так как многие веб-сайты используют общий IP-адрес HTTP с заголовком узла, поэтому использование IP не затрагивает его.С другой стороны, слишком много IP-адресов не используется или не размещает веб-сервер, поэтому это никуда вас не приведет.
Я предлагаю вам отправить запрос в Google (поиск слов из словаря) и сканироватьрезультаты возвращаются.
2) Рендеринг контента: Многие веб-сайты генерируют контент HTML в JavaScript при загрузке формы, поэтому, если вы отправите простой запрос, он не сможетзахватить контент, который сможет увидеть пользователь.Вы должны отобразить страницу так, как это делает браузер, и это можно сделать с помощью Webkit.net , который является инструментом с открытым исходным кодом, хотя все еще находится в бета-версии.HTML: используйте пакет HTML, и есть множество примеров в Интернете.Это также может быть использовано для сканирования сайта.