Могу ли я разрешить индексирование (поисковыми системами) ограниченного контента, не делая его публичным? - PullRequest
0 голосов
/ 18 октября 2010

У меня есть сайт с ограниченным содержанием. Я хочу, чтобы мой сайт появлялся в результатах поиска, но я не хочу, чтобы он был общедоступным.

Есть ли способ, с помощью которого я могу разрешить сканерам сканировать мой сайт, но запретить им публиковать его?

Самое близкое решение, которое я нашел, это Google First Click Free , но даже для этого требуется, чтобы я впервые показывал содержание.

Ответы [ 4 ]

6 голосов
/ 18 октября 2010

Почему вы хотите, чтобы люди могли искать страницу, к которой у них нет доступа, если они нажимают на ссылку? Технически возможно сделать это сложно (проверьте свой код аутентификации, если useragent содержит «googlebot», хотя ничто не мешает людям подделать этот useragent, если они хотят, чтобы ваш контент был достаточно плохим), но в значительной степени бессмысленно.

Кроме того, официальная линия Google (IIRC, однако, нигде не может найти это) заключается в том, что вы можете быть оштрафованы за умышленное стремление показать гуглботу контент, отличный от того, что видят пользователи.

2 голосов
/ 20 октября 2010

Вы в значительной степени заблокированы в Google First Click Free. Ваше единственное другое решение - рискнуть нарушить их правила для веб-мастеров.

Если вы используете Google First Click Free, вы можете защитить часть своего контента. Одним из способов является разбиение на страницы более длинных статей или форумов и не допускать обход дополнительного контента. Пользователям, которые ищут остальную часть контента, может быть предложено зарегистрироваться на вашем сайте.

Более продвинутый способ - разрешить сканирование и индексацию всего вашего контента. С помощью аналитики определить ваш более ценный контент; затем дайте Google знать, что вы не хотите, чтобы «дополнительные» или вспомогательные страницы сканировались (через rel =, мета-роботов, x-роботов и т. д.). Убедитесь, что вы также архивируете эти страницы, чтобы люди не могли получить доступ к контенту через Google Cache. Вы фактически позволяете пользователям получать основной контент, но если они хотят читать больше, им нужно зарегистрироваться, чтобы получить доступ.

Это можно рассматривать как "серый", то есть вы действительно не нарушаете ни одно из указаний для веб-мастеров, но создаете реализацию, которая не является обычной. Вы не предоставляете разный контент пользователям, вы явно указываете Google, что делаете и не хотите сканировать, и одновременно защищаете ценность своего сайта.

Конечно, такую ​​систему не так просто автоматизировать, но если вы посмотрите вокруг, вы увидите публикации или некоторые форумы / доски объявлений, делающие что-то подобное.

1 голос
/ 19 октября 2010

Система пользовательского поиска Google имеет собственный индекс.http://www.google.com/cse/manage/create, чтобы вы могли в основном подтолкнуть все свои сайты к пользовательскому поиску Google с помощью индексации по требованию http://www.google.com/support/customsearch/bin/topic.py?hl=en&topic=16792 и вскоре после этого заблокировать реального робота-робота от повторного доступа к нему и / или удаления его с помощью инструментов Google для веб-мастеров.

но это было бы много взлома, и ваш сайт уйдет в дикое, вероятно, время от времени (или вы исключите его из индекса индекса по запросу).

и / или вы можете купитьваш собственный маленький Google (называется Google Enterprise) http://www.google.com/enterprise/search/index.html тогда ваш Google может получить к нему доступ, но он не будет паб.имеется в наличии.

но читая ваши вопросы еще раз: это, вероятно, не то, что вы хотите?не так ли?

1 голос
/ 18 октября 2010

Не совсем.

Вы можете установить cookie для запросов, поступающих от известных поисковых систем, и разрешить этим запросам доступ к вашему контенту, однако это не помешает людям подделать свой запрос или использовать что-то вроде google translate для передачи информации через прокси..

...