Должен ли я беспокоиться, пытается ли googlebot индексировать маркетинговые URL? - PullRequest
1 голос
/ 02 мая 2009

Я недавно начал использовать Инструменты Google для веб-мастеров .

Я был очень удивлен, увидев, сколько ссылок пытается проиндексировать Google.

http://www.example.com/?c=123
http://www.example.com/?c=82
http://www.example.com/?c=234
http://www.example.com/?c=991

Это все кампании, которые существуют как ссылки с партнерских сайтов.

Пока что все они запрещены моим файлом роботов, пока сайт не будет заполнен - ​​как и КАЖДАЯ страница на сайте.

Мне интересно, каков наилучший подход к таким ссылкам - прежде чем я сделаю свой файл robots.txt менее ограничительным.

Я обеспокоен тем, что они будут рассматриваться как разные URL-адреса и начнут появляться в результатах поиска Google. Все они соответствуют одной странице - дать или взять. Я не хочу, чтобы люди находили их такими, какие они есть, и нажимали на них.

Лучшей идеей на данный момент является визуализация страницы, содержащей строку запроса, следующим образом:

 // DO NOT TRY THIS AT HOME. See edit below
 <% if (Request.QueryString != "") { %>

    <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

 <% } %>

Мне нужно это сделать? Это лучший подход?

Редактировать: Получается НЕ БЫТЬ ХОРОШИМ ПОДХОДОМ . Оказывается, Google видит NOINDEX на странице, которая имеет такое же содержание, что и другая страница, на которой нет NOINDEX. Очевидно это показывает, что они - то же самое, и NOINDEX имеет приоритет. Мой сайт полностью исчез из Google в результате. Предостережение: это могло быть что-то еще, что я сделал в то же время, но я бы не стал рисковать таким подходом.

Ответы [ 4 ]

4 голосов
/ 02 мая 2009

Это то, для чего была разработана rel="canonical". Google опубликовал статью об этом в блоге.

1 голос
/ 02 мая 2009

Да, Google будет интерпретировать их как разные URL.

В зависимости от вашего веб-сервера вы можете использовать фильтр перезаписи для удаления параметра для поисковых систем, например, фильтр перезаписи URL для Tomcat или перезапись мода для Apache.

Лично я бы просто перенаправил на ту же страницу с удаленным параметром отслеживания.

0 голосов
/ 02 мая 2009

Для ресурсов, которые не должны быть проиндексированы, я предпочитаю сделать простой возврат при загрузке страницы:

if (IsBot(Request.UserAgent)
    return;
0 голосов
/ 02 мая 2009

Это кажется лучшим подходом, если страница не существует в ее собственной папке, и в этом случае вы можете изменить файл robots.txt, просто игнорируя эту папку.

...