Как робот Google знает, что веб-сервер не маскируется, когда запрашивает URL `? _Escaped_fragment_ =`? - PullRequest
4 голосов
/ 22 декабря 2011

Что касается спецификации сканирования AJAX от Google, если сервер возвращает одну вещь (а именно файл с большим количеством JavaScript) для URL #! и что-то else (а именно, «снимок html» страницы) для робота Google, когда #! заменен на ?_escaped_fragment_=, что ощущается как как маскировка для меня. В конце концов, как робот Google уверен, что сервер возвращает добросовестные эквиваленты для URL #! и ?_escaped_fragment_=. Тем не менее, именно это спецификация сканирования AJAX на самом деле говорит веб-мастерам. Я что-то пропустил? Как робот Google уверен, что сервер возвращает одинаковое содержимое в обоих случаях?

1 Ответ

1 голос
/ 04 сентября 2012

Сканер не знает. Но он никогда не узнает даже о сайтах, которые возвращают обычный старый HTML - очень легко написать код, который скрывает сайт на основе заголовков http, используемых сканерами или известных заголовков IP.

См. Этот связанный вопрос: Как Google знает, что вы маскируете?

В большинстве случаев это похоже на гипотезу, но, скорее всего, существуют различные проверки на месте, варьирующиеся от подмены обычных заголовков браузера и реальных реальных людей, просматривающих страницу.

Продолжая эту гипотезу, программисты в Google, конечно же, не могли бы написать форму искателя, который фактически извлекал бы то, что видит пользователь - в конце концов, у них есть собственный браузер, который делает именно это. Это было бы непомерно дорого для процессора, чтобы делать это все время, но, вероятно, имеет смысл для случайной выборочной проверки.

...