Question

Каков предпочтительный способ извлечения элементов из HTML-страницы в Java?

В моем HTML много следующих строк:

<tr class="item-odd">
       <td class="data"><a href="http://.....">TITLE</a></td>
       <td><div class="cost">$1.99</div></td>
</tr>

Класс чередуется item-odd и item-even.

Мне нужно извлечь:

URL
Название
цена

Можно ли использовать регулярные выражения?

Pascal Thivent · Answer 1 · 07 января 2010

Я бы использовал библиотеку вроде HTML Parser для этой работы. Посмотрите на образцы и / или javadoc . Также взгляните на предыдущие вопросы здесь, на SO.

HTML Parser довольно прост в использовании и должен выполнять свою работу. Для альтернатив, посмотрите на этот предыдущий ответ .

Brian Agnew · Answer 2 · 07 января 2010

JTidy отлично разбирает HTML и делает его доступным для манипулирования в качестве DOM. Регулярные выражения обычно , а не , так как HTML не является регулярным и имеет множество крайних случаев, которые могут вас подвести.

лучший способ извлечь элементы из HTML-страницы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

лучший способ извлечь элементы из HTML-страницы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов