Робот Google: слишком много разных URL-адресов, указывающих на идентичный контент - PullRequest
1 голос
/ 04 июня 2009

В одном разделе нашего сайта представлен постраничный рандомизированный контент. В первый раз, когда новый пользователь посещает сайт, ему присваивается новое случайное начальное число, которое передается по URL-адресам и для сохранения сохраняется также в cookie-файлах. Проблема в том, что семя в URL сбивает с толку Googlebot (и другие службы индексирования); он жалуется, что слишком много URL-адресов указывают на один и тот же контент. Для нас было бы возможно не передавать начальное число в URL, но, тем не менее, даже если мы используем только файлы cookie, мне кажется, что в какой-то момент нам придется принять решение, является ли посетитель индексирующим пауком или человеком чтобы представить контент нерандомизированным способом.

Мой главный вопрос: насколько плохо в этом случае обнаружить наиболее распространенных индексирующих пауков и обслуживать их неслучайным образом? Я знаю, что правило номер один по поисковой оптимизации - не оптимизировать и, во всяком случае, оптимизировать для пользователей и следить за тем, чтобы содержание было одинаковым для всех. Но в этом случае мы бы на самом деле не меняли содержимое или ничего не скрывали.

Кто-нибудь сталкивался с такой же проблемой? Каковы лучшие методы решения этой проблемы?

Ответы [ 3 ]

1 голос
/ 04 июня 2009

Мой главный вопрос: насколько было бы плохо в этом случае обнаруживать наиболее распространенных индексирующих пауков и обслуживать их неслучайным образом?

Большинство (легитимных / поисковых систем) ботов правильно устанавливают свой пользовательский агент, и поэтому очень легко сделать что-то подобное, вам просто нужно проверить поле HTTP-запроса User-Agent и правильно отреагировать ...

Является ли это решение лучшим, я не имею права обсуждать.

Список пользовательских агентов.

1 голос
/ 04 июня 2009

Вы эмулируете поведение куки, используя параметр запроса. Я хоть такая практика закончила давным-давно. В настоящее время рекомендуется использовать файлы cookie для пользователей, которым требуется сеанс, и разрешать другим пользователям анонимно просматривать ваш сайт.

Либо вы управляете сайтом с большим количеством параноидальных пользователей, которые не хотят, чтобы их отслеживали, и поэтому отключили куки. Они, вероятно, тоже не хотят, чтобы их отслеживали по URL.

Если пользователь вошел в систему, у него должны быть включены куки, без исключений. Если пользователь не вошел в систему, он может просматривать ваш контент, но не может быть отслежен.

Одной из проблем с наличием сеанса в вашем URL-адресе является то, что пользователи теперь копируют и вставляют их намного больше, чем раньше, поэтому даже если вы обнаружите поисковые системы, вы можете получить ссылки с этой информацией о сеансе. *

Если вы действительно хотите решить проблему, добавление карты сайта xml и обнаружение пауков могут быть приемлемыми решениями, но обнаружение пауков требует много работы, чтобы быть в курсе.

"Почему мы не включены в Bing?" - о, я забыл добавить эту поисковую систему.

"Почему мы больше не включаемся в Google" - о, я не знал, что у Google появился новый центр обработки данных.

1 голос
/ 04 июня 2009

Это зависит от структуры сайта, но вам может быть полезно просто отредактировать файл robots.txt , чтобы защитить ботов от потенциально запутанных URL-адресов. Еще одним вариантом является создание Google Sitemap (когда мы говорим поисковая система , мы обычно имеем в виду Google ).

Пара ссылок:

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...