предотвратить запуск плохих ботов, не проверяющих robots.txt, движком приложения - PullRequest
0 голосов
/ 30 января 2019

мой сайт Google App Engine сканируется многими ботами, и в последнее время он стал намного хуже.Количество ботов взлетело до небес, и большинство из них не проверяют robots.txt, и это стоит мне.Есть ли способ предотвратить запуск ядра приложения плохими ботами, которые не проверяют robots.txt?

1 Ответ

0 голосов
/ 30 января 2019

К сожалению, нет, robots.txt эффективен только для ботов с хорошим поведением, которые должным образом выполняют и соблюдают соглашения.От Как запретить роботам сканировать мой сайт? :

Быстрый способ предотвратить посещение сайта роботами - поместить эти две строки в файл /robots.txt на вашем сервере.:

User-agent: *
Disallow: /

, но это помогает только хорошо управляемым роботам.

См. Можно ли блокировать только плохих роботов?

Ииз цитируемой ссылки:

Можно ли блокировать только плохих роботов?

Теоретически да, на практике нет.Если плохой робот подчиняется /robots.txt, и вы знаете имя, которое он ищет в поле User-Agent.затем вы можете создать раздел в вашем /robotst.txt, чтобы исключить его.Но почти все плохие роботы игнорируют /robots.txt, делая это бессмысленным.

Если плохой робот работает с одного IP-адреса, вы можете заблокировать его доступ к вашему веб-серверу через конфигурацию сервера или с помощью сетевого брандмауэра.

Если копии робота работают на множестве разных IP-адресов, например на угнанных компьютерах, которые являются частью большого ботнета , то это становится более сложным.Тогда лучше всего использовать расширенную настройку правил брандмауэра, которая автоматически блокирует доступ к IP-адресам, которые устанавливают много соединений;но это может поразить как хороших роботов, так и ваших плохих роботов.

...