Я хочу использовать java.net.url для сканирования некоторых веб-сайтов и получения некоторых данных.
Я запутался в следующих вопросах -
(1) Предположим, я настроил сканер для посещения веб-страницы обмена видео, например, You Tube. Теперь сканер настроен на посещение определенной видео-страницы You Tube. Означает ли это, что, когда сканер действительно посещает эту страницу, он по умолчанию загрузит все элементы на этой странице, включая FLV Video? Или я могу контролировать, какие файлы получить. Целью является минимизация использования полосы пропускания в Google App Engine. В частности, изначально я хочу, чтобы была извлечена только сама веб-страница HTML без извлечения изображений / видео / других вложений на этой веб-странице ... возможно ли это в Google App Engine или в составе обычного веб-приложения Java?
(2) Какой быстрый и простой способ узнать точную полосу пропускания, используемую для посещения одного конкретного сайта? Чтобы я мог отслеживать использование полосы пропускания?
Кроме того, имея в виду вышеупомянутые 2 проблемы, вы рекомендуете использовать java.net.url или низкоуровневый API? Или вы думаете, что я не должен придерживаться App Engine (и использовать, например, для AWS)?