веб-сканер, который получает исходный код сайта - PullRequest
0 голосов
/ 19 марта 2011

Я хочу сделать что-то немного сложнее. Я хочу сделать сканер, который кроме ссылок будет загружать также исходный код сайта. И после этого я хочу сделать программу, которая будет искать исходный кодкаждый сайт, если существует заявление (например, если есть заголовок, исключает этот сайт).

Ответы [ 5 ]

2 голосов
/ 19 марта 2011

Однажды я нашел PHP-скрипт для чего-то похожего, но, конечно, он захватывает код на стороне клиента (как точно сказал SpyrosP). Смотри http://www.phpclasses.org/package/4616-PHP-Crawl-Web-pages-to-search-for-given-text.html

1 голос
/ 19 марта 2011

Вот пример C # для использования объекта HttpWebRequest для получения информации.

http://www.csharp -station.com / HowTo / HttpWebFetch.aspx

0 голосов
/ 01 января 2014

Тестировали ли вы с linux comando wget?http://m.linuxjournal.com/content/downloading-entire-web-site-wget

Я думаю, что вы тоже можете проверить.

0 голосов
/ 23 марта 2013

Вы можете пройти через jsoup
jsoup - это библиотека Java для работы с реальным HTML.
jsoup - ссылка на официальный сайт
Вы можете получить информацию, Parse Html, используя теги.

0 голосов
/ 19 марта 2011

Вы не можете прочитать код сервера из скрипта.Вы можете захватить только HTML или что-либо еще, запущенное на клиенте (например, javascript).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...