лучший способ извлечь элементы из HTML-страницы? - PullRequest
1 голос
/ 07 января 2010

Каков предпочтительный способ извлечения элементов из HTML-страницы в Java?

В моем HTML много следующих строк:

<tr class="item-odd">
       <td class="data"><a href="http://.....">TITLE</a></td>
       <td><div class="cost">$1.99</div></td>
</tr>

Класс чередуется item-odd и item-even.

Мне нужно извлечь:

  1. URL
  2. Название
  3. цена

Можно ли использовать регулярные выражения?

Ответы [ 2 ]

6 голосов
/ 07 января 2010

Я бы использовал библиотеку вроде HTML Parser для этой работы. Посмотрите на образцы и / или javadoc . Также взгляните на предыдущие вопросы здесь, на SO.

HTML Parser довольно прост в использовании и должен выполнять свою работу. Для альтернатив, посмотрите на этот предыдущий ответ .

3 голосов
/ 07 января 2010

JTidy отлично разбирает HTML и делает его доступным для манипулирования в качестве DOM. Регулярные выражения обычно , а не , так как HTML не является регулярным и имеет множество крайних случаев, которые могут вас подвести.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...