Сохраняет ли googlebot сессии при сканировании? - PullRequest
12 голосов
/ 31 октября 2011

Когда гуглбот сканирует страницы, есть ли у него сессия?Например, я храню некоторые переменные в сеансе и использую их на страницах моего сайта.Когда Googlebot сканирует эти страницы, у меня все еще будут переменные сеанса?В моем global.asax я сохраняю некоторые переменные в начале сеанса.Будут ли у меня проблемы с ботом Google?

Ответы [ 4 ]

9 голосов
/ 28 июля 2012

Googlebot активно пытается избежать сеансов и не поддерживает куки. С Первое свидание с роботом Google: заголовки и сжатие (март 2008)

Я обычно избегаю куки (поэтому нет заголовка "Cookie:"), так как я не хочу содержание слишком сильно зависит от информации о сеансе. И, если Сервер использует идентификатор сеанса в динамическом URL, а не куки, я могу как правило, понять это, чтобы я не ползал твой же миллион раз с миллионами разных идентификаторов сеансов.

Я думаю, что большинство обычных поисковых роботов будут похожи в этом отношении. Google пытается создать индекс уникальных URL. URL - это уникальный ключ, который идентифицирует уникальную страницу контента. Файлы cookie (и сеансы) не передаются, когда пользователь щелкает ссылку в SERPS. Google в основном индексирует страницы, а не сайты.

2 голосов
/ 31 октября 2011

Обычно ответ отрицательный, однако другие сканеры (которых много) работают другими способами.

Следует отметить, что я видел экземпляр сканера Google для AdWords (не обычного робота Google), который представлял файл cookie сеанса.

2 голосов
/ 01 ноября 2011

Ответ на один из ваших вопросов: да , у вас будут проблемы с ботом Google.

Обычно мы сталкивались с двумя типами проблем с ботом Google:

  1. иногда не сохраняет файлы cookie HTTP между запросами.Наше приложение основано на пользовательских файлах cookie, и было множество запросов от ботов Google, которые вообще не содержали cookie.

  2. это делает длинные перерывы между последовательными запросами.Например, он извлекает вашу страницу и позже запрашивает ее скрипты.

И то, и другое вызовет проблемы с вашим сеансом.Первое - вам нужен точный файл cookie ASPNETSessionID для передачи между запросами.Робот Google, вероятно, иногда не сможет этого сделать.Второе - если между запросами слишком много времени, ваш сеанс будет прерван, даже если там есть файл cookie.

0 голосов
/ 31 октября 2011

Это очень маловероятно, я думаю. Он должен создавать новый сеанс каждый раз, когда сканирует ваш сайт.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...