Какой User-Agent следует использовать при сканировании сайтов с использованием собственной программы - PullRequest
0 голосов
/ 10 сентября 2018

Я сделал сканер с помощью node.js. Я хочу сканировать некоторые сайты на почасовой основе.

Я пытался выяснить, какой пользовательский агент мне следует использовать, но я получил только такие результаты, как бот Google и бот Bing. Я не знаю, смогу ли я использовать этих пользовательских агентов.

Не могли бы вы сказать мне, какой пользовательский агент я должен использовать?

Ответы [ 2 ]

0 голосов
/ 10 сентября 2018

Поскольку вы создали свой собственный сканер, вы можете придумать свое собственное имя. Нет никаких правил относительно того, каким может быть UserAgent, но многие используют такой формат, как name/version, например:

myAwesomeCrawler/1.0

Вы также можете включить URL, чтобы владельцы веб-сайтов могли найти больше информации о вашем боте, если они увидят его в ваших логах:

myAwesomeCrawler/1.0 (http://example.org)

Но в конечном итоге это зависит от вас.

Это, конечно, все зависит от того, что вы делаете, что не является незаконным или нарушает условия обслуживания просматриваемого веб-сайта.

0 голосов
/ 10 сентября 2018

Зависит от того, чего вы хотите достичь. Если вы хотите подражать легальному браузеру, просто возьмите пользовательский агент обычного браузера, такого как Chrome или Firefox. Если вы хотите сообщить сайту, что вы являетесь сканером, просто используйте то, что вы определили (например, xyzCrawler).

...