Получение веб-контента - браузер не поддерживает фреймы - PullRequest
0 голосов
/ 27 сентября 2011

У меня есть фрагмент кода, подобный следующему:

webUrl = new URL(url);
reader = new BufferedReader(new InputStreamReader(webUrl.openStream()));

Когда я пытаюсь получить html-содержимое какой-либо страницы, я получаю ответ, что мой браузер не поддерживает фреймы.Так что я не понимаю реальный HTML-код страницы.Есть ли обходной путь?Может, сказать программе зарегистрировать какой-нибудь браузер?

Для меня важно только получить HTML, затем я хочу его проанализировать.

РЕДАКТИРОВАТЬ: Не удается получить SRC кадра из HTML в браузере.Это скрыто в JS.

Ответы [ 2 ]

3 голосов
/ 27 сентября 2011

Сообщение «Вы не поддерживаете фреймы, и мы не разместили здесь разумный альтернативный контент» будет в элементе <noframes>. Вам необходимо получить доступ к соответствующему элементу <frame>, получить доступ к его атрибуту src, разрешить в нем URI и затем извлечь данные оттуда.

1 голос
/ 27 сентября 2011

Вы должны установить строку user-agent в своем HTTP-запросе, чтобы сервер думал, что вы поддерживаете фреймы.Для этого я предлагаю что-то вроде HtmlClient или HttpClient.

...