Короткий вопрос:
Есть ли у кого-нибудь код C # для анализа robots.txt, а затем для оценки URL-адресов по нему, чтобы посмотреть, будут ли они исключены или нет.
Длинный вопрос:
Я создавал карту сайта для нового сайта, который еще не был опубликован в Google. Карта сайта имеет два режима: пользовательский режим (например, традиционная карта сайта) и режим администратора.
В режиме администратора будут отображаться все возможные URL-адреса на сайте, включая настраиваемые URL-адреса для входа или URL-адреса для конкретного внешнего партнера, например example.com/oprah
для всех, кто видит наш сайт в Oprah. Я хочу отслеживать опубликованные ссылки где-то, кроме таблицы Excel.
Я бы предположил, что кто-то может опубликовать ссылку /oprah
в своем блоге или где-то еще. На самом деле мы не хотим, чтобы этот «сайт мини-опры» индексировался, потому что это могло бы привести к тому, что зрители, не являющиеся опрами, смогут найти специальные предложения Опры.
Итак, в то же время, когда я создавал карту сайта, я также добавил URL-адреса, такие как /oprah
, чтобы исключить их из нашего файла robots.txt
.
Тогда (и это актуальный вопрос). Я подумал: «Не было бы неплохо показать на карте сайта, проиндексированы ли файлы и видны ли они роботам». Это было бы довольно просто - просто проанализируйте robots.txt и затем оцените ссылку на него.
Однако это «бонусная функция», и у меня, конечно, нет времени выходить и писать ее (даже подумал, что это, вероятно, не так уж сложно) - поэтому мне было интересно, если кто-нибудь уже написал какой-либо код для разбора роботов. TXT?