Зачем Google (или Googlebot) индексировать страницу, возвращающую ошибку 500? - PullRequest
7 голосов
/ 21 августа 2009

Робот Google иногда индексирует один из наших сайтов с неверным параметром строки запроса. Я не уверен, как он получает этот параметр строки запроса (кажется, что нет сайтов, ссылающихся на нас с плохими ссылками, и ничто на нашем сайте не вставляет неправильное значение). Неверный параметр заставляет сайт выдавать ошибку 500, как мы и ожидаем.

У меня сложилось впечатление, что Google не будет индексировать страницы, которые возвращают ошибку 500, но оказывается, что это так. Итак, теперь у меня есть два вопроса:

1) Почему робот Googlebot вставляет случайные неверные значения строки запроса? (Мне не очень важен ответ на этот вопрос, но если бы мы могли что-то сделать, чтобы избежать этого, это решило бы нашу проблему.)

2) Зачем Google индексировать страницу, которая возвращает ошибку 500?

Вот одна из ошибочных ссылок, созданных роботом Google и проиндексированных Google:

http://www.pbs.org/teacherline/catalog/browse/?sa=4&gb=baqhuxts&gb=20&gb=21&num=20&page=2&js=0&sa=1

Неверный параметр: gb = baqhuxts. Ожидается, что параметр 'gb' будет целым числом. Если вы удалите этот параметр из строки запроса, вы получите красивую страницу каталога с указанием.

Относительно решений nofollow и robots.txt: [УДАЛЕНО]

Теперь я понимаю, что я идиот и поставил метатег, указывающий поисковым роботам индексировать страницу. Это было глупо. Я убираю их. W - (

Если вы выполните поиск в Google по запросу "baqhuxts" , вы обнаружите, что он проиндексировал 10 страниц с этим неверным параметром. Но каждая из этих страниц возвращает ошибку 500. Кто-нибудь знает, почему Google считает, что это действительные страницы для индексации?

Ответы [ 2 ]

4 голосов
/ 21 августа 2009

Вероятно, это потому, что вы говорите Google индексировать его, указав в своих метатегах:

<meta name="robots" content="index,follow">

Попробуйте удалить это! :)

1 голос
/ 21 августа 2009

к сожалению, я знаю только ответ на # 1:

Google будет сканировать такие странные страницы, потому что люди с панелью инструментов Google переходят на несуществующие страницы, и их информация о просмотре передается в Google. Вот почему вы часто находите проиндексированные страницы, которые не индексируются, например, страницы phpmyadmin, на которые нигде нет ссылок.

...