Сканирует ли googlebot URL-адреса в вызовах jQuery $ .get () и можно ли это предотвратить? - PullRequest
3 голосов
/ 22 октября 2010

У меня есть страница с формой, использующей этот плагин ajaxForm jQuery .Форма отправляется, и когда она завершена, выполняется вызов с использованием $ .get () для загрузки нового содержимого на страницу.

Моя проблема в том, что робот Google «кажется» индексирует URL-адрес вМетод $ .get ().

Мой первый вопрос: возможно ли это?У меня сложилось впечатление, что робот Google по большей части не оценивал javascript (я читал кое-что о том, что он может индексировать контент по URL с помощью! #).

Мой второй вопрос: если Google индексирует этопозвоните по этому адресу, есть ли способ предотвратить это?

Заранее спасибо.

Ответы [ 3 ]

3 голосов
/ 22 октября 2010

Вы можете robots.txt файл, в частности, googlebot будет должен соблюдать его.

С robotstxt.org :

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

Вы также можете обратиться к Google Central для веб-мастеров , чтобы удалить файл из списка.

2 голосов
/ 22 октября 2010

Прежде всего вам необходимо убедиться, что это действительно GoogleBot, потому что любой может притвориться GoogleBot, даже законным пользователем.

Рекомендуется использовать обратный поиск DNS, проверитьчто имя находится в домене googlebot.com, а затем выполните соответствующий прямой поиск DNS-> IP с использованием этого имени googlebot.com.

Источник Официальный центральный блог Google для веб-мастеров: какпроверить Googlebot .

1 голос
/ 16 ноября 2010

googlebot интерпретирует почти каждую строку в inline-javascript как URL, который содержит «/» или общее расширение файла («.html», «.php») ... особенно первая очень раздражает.

запутайте каждый URL во встроенном JS, который вы не хотите сканировать. т.е. заменить "/" на '|' на стороне сервера и создайте метод-оболочку в JS, который заменяет «|» на "/" снова.

да, это в основном раздражает, и есть лучшие способы, т. Е. Иметь все ваши js во внешнем файле, который нельзя сканировать.

решение robots.txt на самом деле не является решением. поскольку URL-адреса все еще находят, подталкивают к обнаружению (канал Google использует для определения того, что сканировать дальше), но затем сканирование блокируется, что по сути является одной из упущенных возможностей.

...