Кто-нибудь получил любой код C # для анализа robots.txt и оценки URL-адресов по нему - PullRequest
6 голосов
/ 11 марта 2009

Короткий вопрос:

Есть ли у кого-нибудь код C # для анализа robots.txt, а затем для оценки URL-адресов по нему, чтобы посмотреть, будут ли они исключены или нет.

Длинный вопрос:

Я создавал карту сайта для нового сайта, который еще не был опубликован в Google. Карта сайта имеет два режима: пользовательский режим (например, традиционная карта сайта) и режим администратора.

В режиме администратора будут отображаться все возможные URL-адреса на сайте, включая настраиваемые URL-адреса для входа или URL-адреса для конкретного внешнего партнера, например example.com/oprah для всех, кто видит наш сайт в Oprah. Я хочу отслеживать опубликованные ссылки где-то, кроме таблицы Excel.

Я бы предположил, что кто-то может опубликовать ссылку /oprah в своем блоге или где-то еще. На самом деле мы не хотим, чтобы этот «сайт мини-опры» индексировался, потому что это могло бы привести к тому, что зрители, не являющиеся опрами, смогут найти специальные предложения Опры.

Итак, в то же время, когда я создавал карту сайта, я также добавил URL-адреса, такие как /oprah, чтобы исключить их из нашего файла robots.txt.

Тогда (и это актуальный вопрос). Я подумал: «Не было бы неплохо показать на карте сайта, проиндексированы ли файлы и видны ли они роботам». Это было бы довольно просто - просто проанализируйте robots.txt и затем оцените ссылку на него.

Однако это «бонусная функция», и у меня, конечно, нет времени выходить и писать ее (даже подумал, что это, вероятно, не так уж сложно) - поэтому мне было интересно, если кто-нибудь уже написал какой-либо код для разбора роботов. TXT?

Ответы [ 3 ]

8 голосов
/ 11 марта 2009

Ненавижу это говорить, но просто гуглите "C # robots.txt parser" и нажмите на первый удар. Это статья CodeProject о простой поисковой системе, реализованной на C # под названием «Searcharoo» , и она содержит класс Searcharoo.Indexer.RobotsTxt, описываемый как:

  1. Проверьте и, если имеется, загрузите и проанализируйте файл robots.txt на сайте
  2. Предоставить интерфейс для Паука для проверки каждого URL-адреса на соответствие правилам robots.txt
3 голосов
/ 15 мая 2012

Мне нравится код и тесты в http://code.google.com/p/robotstxt/ рекомендую его в качестве отправной точки.

1 голос
/ 13 сентября 2010

Немного саморекламы, но так как мне нужен был подобный парсер, и я не мог найти ничего, чем был бы доволен, я создал свой собственный:

http://nrobots.codeplex.com/

Буду рад любому отзыву

...