Как получить только часть HTML-страницы? - PullRequest
0 голосов
/ 17 мая 2011

Как лучше всего выделить часть страницы Html, которую я получил по запросу HttpClient4 из Apache и Java? В частности, мне нужна таблица (ее содержимое).
Объяснение, Пример или Ссылка было бы здорово.

Ответы [ 2 ]

2 голосов
/ 17 мая 2011

Что вы можете сделать, это создать объект DOM из ответа, так как должен быть действительным документом.

сделать что-то вроде

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
Document document = builder.parse(/* your input stream from response */);
Element tableElement = document.getElementById("the-table-id");
1 голос
/ 17 мая 2011

Путь Адриана Родригеса неплох, но, к сожалению, он будет работать только в том случае, если HTML является XHTML (то есть правильно отформатированным XML). Вы можете использовать библиотеку под названием Web Harvest (доступную на sourceforge.net) для очистки страницы и декларативного извлечения таблицы вместо написания кода для этого. Он также включает фазы в скрипте сборки для очистки страницы по мере необходимости. Я настоятельно рекомендую использовать это, так как это будет гораздо более надежное решение для ваших задач, особенно если в будущем вам понадобится очистить другие страницы.

...