некоторые вопросы по использованию java.net.url в Google App Engine для Java - PullRequest
0 голосов
/ 15 января 2012

Я хочу использовать java.net.url для сканирования некоторых веб-сайтов и получения некоторых данных.

Я запутался в следующих вопросах -

(1) Предположим, я настроил сканер для посещения веб-страницы обмена видео, например, You Tube. Теперь сканер настроен на посещение определенной видео-страницы You Tube. Означает ли это, что, когда сканер действительно посещает эту страницу, он по умолчанию загрузит все элементы на этой странице, включая FLV Video? Или я могу контролировать, какие файлы получить. Целью является минимизация использования полосы пропускания в Google App Engine. В частности, изначально я хочу, чтобы была извлечена только сама веб-страница HTML без извлечения изображений / видео / других вложений на этой веб-странице ... возможно ли это в Google App Engine или в составе обычного веб-приложения Java?

(2) Какой быстрый и простой способ узнать точную полосу пропускания, используемую для посещения одного конкретного сайта? Чтобы я мог отслеживать использование полосы пропускания?

Кроме того, имея в виду вышеупомянутые 2 проблемы, вы рекомендуете использовать java.net.url или низкоуровневый API? Или вы думаете, что я не должен придерживаться App Engine (и использовать, например, для AWS)?

1 Ответ

1 голос
/ 15 января 2012

(1) Ваш сканер будет загружать только то, что веб-сервер отвечает за определенный URL, который обычно является чистым HTML.В случае YouTube, просто щелкните правой кнопкой мыши на вашем браузере на странице и выберите View Source.Это то, что вы загрузите, если загрузите страницу автоматически.Нет видео, только текст.

(2) когда вы читаете содержимое веб-страницы, просто посчитайте полученные байты.Это ваша пропускная способность.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...