В приведенной ниже статье упоминается, что боты могут сканировать HTML-формы, читать javascript, экспериментировать с URL-адресами и т. Д.
https://webmasters.googleblog.com/2008/04/crawling-through-html-forms.html
Существует слово об использовании robots.txt для блокировки этого поведения:
Это означает, что если форма поиска запрещена в файле robots.txt, мы не будем сканировать URL-адреса, сгенерированные формой.
Моя проблема в том, что мои поисковые формы включены в любую страницу, поэтому я не могу просто запретить один или несколько URL.
Итак, есть ли способ сообщить Googlebot, Binbot (или всем ботам):
- НЕ ползти по этим формам?
- НЕ составлять URL-адреса, которых нет ни в Sitemap, ни в URL-адресах веб-сайта?
(robots.txt звучит лучше, так как робот Googlebot не любит видеть различия между просматриваемыми страницами и страницами, отображаемыми для обычных пользователей) ...
У меня есть тонна странных сканирований от робота Googlebot за 3 недели и совсем недавно от Bingbot.