Ваша Java-программа, загружающая чужой сервер для загрузки содержимого URL-адреса, больше не будет напрягать сервер, чем веб-браузер - по сути, это точно такая же операция. На самом деле, вы, вероятно, меньше напрягаете их, потому что ваша программа, вероятно, не будет беспокоиться о загрузке изображений, скриптов и т. Д., Как это сделал бы веб-браузер.
НО:
- если вы начнете бомбардировать сервер компании с умеренными ресурсами с загрузками или начнете демонстрировать явные шаблоны «роботов» (например, загрузку точно каждую секунду), они, вероятно, заблокируют вас; поэтому наложите некоторые разумные ограничения на то, что вы делаете (например, каждая последовательная загрузка на один и тот же сервер происходит через случайные интервалы от 10 до 20 секунд);
- когда вы делаете запрос, вы, вероятно, захотите установить заголовок запроса "referer", чтобы имитировать реальный браузер или быть открытым о том, что это такое (придумайте имя для своего "робота", создайте страницу, объясняющую, что он включает URL-адрес этой страницы в заголовке реферера) - многие владельцы серверов пропускают законных роботов с хорошим поведением, но блокируют «подозрительных», если неясно, что они делают;
- на аналогичной заметке, если вы делаете вещи «легально», не выбирайте страницы, которые файлы «robot.txt» сайта запрещают вам извлекать.
Конечно, в рамках некоторых «не злонамеренных действий», как правило, для вас совершенно законно делать любые запросы, когда вы хотите, на любой сервер. Но в равной степени этот сервер имеет право обслуживать или запрещать вам эту страницу. Поэтому, чтобы не допустить, чтобы вас блокировали, так или иначе, вам нужно либо получить одобрение от владельцев серверов, либо "вести себя сдержанно" в ваших запросах.