Я сделал веб-сканер и хочу установить имя моего агента загрузчика, чтобы сайты знали, кто обрабатывает их содержимое, и также следовали правилам robots.txt по имени.
Как мне это сделать?
Просто установите заголовок запроса User-Agent, используя URLConnection#setRequestProperty(). На HttpURLConnection это по умолчанию java/xxx, где xxx - номер версии.
User-Agent
URLConnection#setRequestProperty()
HttpURLConnection
java/xxx
xxx
1012 * Е.Г. *
connection.setRequestProperty("User-Agent", "RenatoBot/1.0");
Установите значение заголовка User-Agent с помощью addRequestProperty или setRequestProperty
http://download.oracle.com/javase/1.4.2/docs/api/java/net/URLConnection.html#addRequestProperty(java.lang.String, java.lang.String)
connection.setRequestProperty("User-Agent", "yourDownloaderName")
См. http://www.w3.org/Protocols/rfc2616/rfc2616-sec14.html#sec14.43