извлечение содержимого html с использованием htmlunit - PullRequest
0 голосов
/ 08 июля 2011

У меня есть серии файлов HTML с одинаковыми структурами.

Давайте возьмем этот пример кода.

>     <html>
>     <head>
>     <title>main page</title>
>     </head>
>     <body>
>     <table><tr>
>     <td>content1</td>
>     </tr></table>
>     </body>
>     </html>

Я хочу извлечь содержимое тега title и содержимое тега td.Как это сделать с помощью htmlunit?Я новичок в htmlunit.Пожалуйста, помогите мне.

Ответы [ 2 ]

1 голос
/ 08 июля 2011

См. Этот поучительный фрагмент со страницы HTMLUnit.

Там вы сначала создаете клиент, затем извлекаете страницу, наконец запрашиваете текст заголовка (page.getTitleText()) илиполучить всю страницу в виде строки HTML (page.asXml()).Затем вы можете assertContains в этой строке.

Существует множество других опций, таких как получение элементов по id.Лучше сами посмотрите примеры.

0 голосов
/ 08 июля 2011

htmlunit - это система тестирования.Не анализатор DOM.

Для анализа HTML в DOM используйте http://about.validator.nu/htmlparser/ и используйте класс HtmlDocumentBuilder .

Когда у вас есть Document, выможно сделать myDocument.getElementsByTagName("title"), чтобы найти элемент заголовка.

...