Заставить поисковых ботов не сканировать удаленную страницу? - PullRequest
1 голос
/ 11 апреля 2011

В настоящее время мы используем Kentico CMS для нашего веб-сайта, и у нас была страница с названием pages / page1.aspx. Мы удалили эту страницу, но каждый день робот Google, Bing и Yahoo Sarch пытается прочитать эту страницу. Поскольку страница не существует, CMS выдает следующую ошибку (в журнале)

Event URL:  /pages/page1.aspx
URL referrer:   
User agent:     Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

Message: The file '/pages/page1.aspx' does not exist.
Stack Trace:
at System.Web.UI.Util.CheckVirtualFileExists(VirtualPath virtualPath)
// and the rest of the stacktrace

Когда мы получаем слишком много этих ошибок, весь сайт падает (приходится очищать временные файлы .Net и перезапускать пул приложений). По сути, я могу зайти на несуществующую страницу, многократно нажать «Обновить» и закрыть сайт. Очень плохо. Однако, во-первых, как я могу заставить ботов не пытаться получить доступ к этой странице?

Заранее спасибо.

Ответы [ 3 ]

1 голос
/ 11 апреля 2011

Если это вызвано только одной страницей или несколькими страницами, измените robots.tx t, чтобы законные поисковые системы не проверяли его.

Я бытакже проверьте, какой HTTP-ответ вы отправляете, когда страница не найдена?Возможно, вы посылаете что-то, что заставляет паука думать, что оно должно продолжать проверять?Может быть, вам стоит вместо 404 попробовать перенаправить на свою домашнюю страницу навсегда?

Наконец, WTF?Я бы поговорил с ребятами из Ketnico об этой ошибке.

0 голосов
/ 11 апреля 2011

Я думаю, что у вас есть ошибка конфигурации. Хотя файл robots.txt, возможно, исправит эту проблему, боты могут проигнорировать этот файл.

Лучшим решением было бы правильно настроить страницы ошибок. Что происходит, когда вы переходите на страницу, которая не существует? Похоже, что ваша система показывает желтый экран, который является необработанным исключением, пузырящимся до самого пользователя. Я бы проверил настройки вашей страницы ошибок, чтобы пользователи (и роботы) перенаправлялись на страницу ошибок 404. Я предполагаю, что когда Yahoo и другие увидят эту страницу 404, они перестанут пытаться проиндексировать ее.

0 голосов
/ 11 апреля 2011

Вы пытались использовать файл robots.txt?

...