Должен ли я изменить или отредактировать свой robots.txt или что-то изменить?
Зависит от бота. Некоторые боты покорно игнорируют robots.txt.
У нас была похожая проблема 18 месяцев назад с ботом Google AD, потому что наш клиент покупал Soooo много рекламы.
Боты Google AD будут (как задокументировано) игнорировать исключения подстановочных знаков (*), но будут слушать явные игнорирования.
Помните, что боты, которые уважают robots.txt, не будут сканировать ваш сайт. Это нежелательно, если вы хотите, чтобы они получили доступ к вашим данным для индексации.
Лучшее решение - дросселировать или подавать статическое содержимое боту.
Не уверен, хорошо ли это, потому что они индексируют или как?
Они могут быть индексацией / очисткой / воровством. Все таки на самом деле. Я думаю, что вы хотите, чтобы ускорить их обработку HTTP-запросов на основе UserAgents. Как это сделать, зависит от вашего веб-сервера и контейнера приложения.
Как указано в других ответах, если бот является вредоносным, вам нужно либо найти шаблон UserAgent и отправить ему 403 запрета. Или, если злонамеренные боты динамически изменяют строки агента пользователя, у вас есть еще две опции:
- Пользовательские агенты из белого списка - например, создать фильтр пользовательских агентов, который принимает только определенные пользовательские агенты. Это очень несовершенно.
- IP banning - заголовок http будет содержать исходный IP. Или, если вы получаете DOS'd (атака отказа в обслуживании), тогда у вас есть большие проблемы