Как узнать, является ли HTTP-запрос BOT - PullRequest
8 голосов
/ 19 января 2011

Я ищу полный список пользователей-агентов BOTS (сканеры, пауки, боты в Твиттере и т. Д.).

Знаете ли вы что-нибудь?

Спасибо

Ответы [ 2 ]

4 голосов
/ 19 января 2011

Проверьте этот список: http://www.botsvsbrowsers.com/category/1/index.html

Содержит общее количество 4768 агентов пользователя бота.

Другим способом обнаружения бота является использование обратного подхода в «белом списке», то есть проверка, если пользовательский агент не является ботом, а все остальное - бот. : -)

Для составления исчерпывающего списка пользовательских агентов, не являющихся ботами, вы можете использовать списки на http://www.user -agents.org / и http://www.botsvsbrowsers.com/.

3 голосов
/ 20 января 2011

Короче говоря: вы не можете, там нет серебряной пули.Любой бот может установить для своей строки user-agent что угодно, от «googlebot» до «spamalot».

Вы можете увидеть это сами, все, что вам нужно сделать, это перейти на первый сайт, на который указал Шиннок, и начать считать всете Googlebot/2.X боты, перечисленные там.Вы блокируете их, они меняют имя бота на случайную тарабарщину и так далее.В конце концов вы получите список из 10 000 ботов, который уменьшит время загрузки ваших пользователей, когда вы попытаетесь проверить, являются они ботами или нет.

...