Предотвратить ботов от сканирования через HTML-формы? - PullRequest
0 голосов
/ 13 сентября 2018

В приведенной ниже статье упоминается, что боты могут сканировать HTML-формы, читать javascript, экспериментировать с URL-адресами и т. Д.

https://webmasters.googleblog.com/2008/04/crawling-through-html-forms.html

Существует слово об использовании robots.txt для блокировки этого поведения:

Это означает, что если форма поиска запрещена в файле robots.txt, мы не будем сканировать URL-адреса, сгенерированные формой.

Моя проблема в том, что мои поисковые формы включены в любую страницу, поэтому я не могу просто запретить один или несколько URL.

Итак, есть ли способ сообщить Googlebot, Binbot (или всем ботам):

  1. НЕ ползти по этим формам?
  2. НЕ составлять URL-адреса, которых нет ни в Sitemap, ни в URL-адресах веб-сайта?

(robots.txt звучит лучше, так как робот Googlebot не любит видеть различия между просматриваемыми страницами и страницами, отображаемыми для обычных пользователей) ...

У меня есть тонна странных сканирований от робота Googlebot за 3 недели и совсем недавно от Bingbot.

...