Есть ли HttpWebRequest Повинуйтесь robots.txt в .Net? - PullRequest
2 голосов
/ 01 апреля 2011

Я создаю инструмент для веб-разработчиков, который будет «сканировать» HTML на их сайте.

Для этого требуется, чтобы мое приложение Asp.Net загрузило страницу со своего сайта.

Чтобы защитить себя от злоупотреблений, я хочу убедиться, что я подчиняюсь robots.txt, среди других методов.

HttpWebRequest уже делает это? Или есть реализация с открытым исходным кодом, которую я могу использовать для проверки файла robots.txt по заданной строке user-agent?

1 Ответ

5 голосов
/ 01 апреля 2011

HttpWebRequest просто делает один HTTP-запрос.Он не подчиняется robots.txt, потому что не знает, что существует.Потребовался бы другой запрос, чтобы посмотреть, существует ли он, и прочитать его содержимое, и если бы он сделал это по умолчанию, у вас были бы 50% накладные расходы.

Для реализации на C # посмотрите здесь: Anybodyполучил любой код C # для анализа robots.txt и оценки URL-адресов по нему

...