Как сделать контент веб-страницы приватным для людей, но общедоступным для поисковых систем? - PullRequest
2 голосов
/ 25 августа 2011

Когда вы нажимаете на результаты поиска моего клиента в Google (или в любой другой поисковой системе), вы переходите на искомый URL-адрес, но представленный контент является стандартной страницей "Условия использования".

Человек должен принять «Условия использования», щелкнув ссылку «ОК» JS, которая активирует cookie-файл, после чего ему разрешается просматривать фактическое содержимое страницы.

Проблема в том, что это делает контент страницы приватным, и поисковые системы, следовательно, индексируют контент "Условия использования".

Я ищу какой-то компромисс, который удовлетворит юридические орлы и потребности моего клиента в SEO.

Я не разработчик, но я до сих пор придумываю ...

Они могут установить cookie для запросов, поступающих от известных поисковых систем (используя http://www.user -agents.org / index.shtml и / или www.iplists.com/nw/), и разрешить эти запросы. для доступа к контенту.

Это сделало бы частный контент общедоступным, поэтому им также необходимо было бы отархивировать эти страницы, чтобы люди не могли пропустить принятие «Условий использования» и просто получить доступ к контенту через кеш Google.

Я полагаю, что это позволит поисковым системам оценивать содержание страницы и соответствующим образом оценивать ее, в то же время требуя, чтобы люди приняли «Условия использования» сайта?

Впервые я столкнулся с этой проблемой ... любые советы о том, как реализовать / лучшие альтернативные решения / живые примеры приветствуются.

[Существует неопределенно похожий вопрос , но я ищу что-то более конкретное, пожалуйста.]

Большое спасибо в ожидании!

Ответы [ 3 ]

5 голосов
/ 25 августа 2011

Достаточно умный человек может просто маскироваться под гугл-бота ... все, что вы представляете боту, может видеть человек.Это было здорово делать с expertSexchange - ответы находились за платой, но если вы просто нажали на кешированную ссылку Google, вы могли видеть все ответы.

Короче говоря: это не сработает.

2 голосов
/ 25 августа 2011

Прежде всего, нет способа надежно определить, что запрос поступает от поисковой системы, так что любой предприимчивый веб-пользователь сможет увидеть все, что вы позволите поисковой системе.Я бы сказал, что самое первое, что вы должны сделать, это убедиться, что клиент это понимает.Вы можете сделать что-то, что будет работать для пользователя по умолчанию, который не пытается обойти ваши системные элементы управления, но если вы собираетесь позволить поисковой системе просматривать контент без аутентификации, то обычные пользователи смогут следовать этомупуть тоже (с небольшой изобретательностью).

Во-вторых, не стоит полагать, что поисковый сканер будет поддерживать куки вообще.Если вы ориентируетесь только на одну конкретную поисковую систему, вы можете протестировать ее и посмотреть, поддерживает ли она куки-файлы, но из того, что я прочитал, большинство не делает, так как это просто намного больше служебной работы с их стороны, и они хотят индексироватьчто в любом случае свободно доступно.Таким образом, вы не можете использовать cookie для отслеживания запроса поисковой системы.

Единственный известный мне способ разрешить поисковым системам, но не обычным читателям по умолчанию, - это прослушать строку агента пользователязапрашивающего агента.Каждая поисковая система однозначно идентифицирует себя как таковую, и вы можете посмотреть на нее при каждом получении запроса и решить, разрешено ли ему обходить обычные ограничения.Но точно так же, как вы и ваш клиент знаете, любой обычный пользователь может просто настроить свой браузер так, чтобы он включал эту строку пользовательского агента, и вы бы сразу их впустили - вы не сможете заметить разницу.Браузер Safari поставляется с возможностью управления строкой пользовательского агента (он помогает веб-разработчикам в их собственном тестировании, но может использоваться и другими способами).

В некоторых случаях это может бытьМожно посмотреть на запрашивающий IP-адрес, чтобы увидеть, является ли он тем, что вы ожидаете от поисковой системы, но если поисковая система не публикует диапазоны IP-адресов, которые они будут использовать, и в некоторой степени гарантирует, что они будут соблюдены, эторискованное предложение, на которое можно положиться.

1 голос
/ 26 августа 2011

Альтернативой может быть полное удаление целевой страницы «Условия использования» и выполнение действий, которые выполняет большинство сайтов, - с предупреждением об использовании сайта:

By continuing to use this site, you agree to the
<a href="ToU.htm">Terms of Use</a>

Если оно должно быть действительно заметным,вы можете сделать его похожим на панель уведомлений Stackoverflow в верхней части страницы.

...