разбирать мета-теги в Java - PullRequest
       12

разбирать мета-теги в Java

2 голосов
/ 18 ноября 2008

У меня есть коллекция документов HTML, для которых мне нужно проанализировать содержимое тегов в разделе . Это единственные теги HTML, значения которых меня интересуют, т.е. мне не нужно ничего анализировать в разделе .

Я попытался проанализировать эти значения с помощью поддержки XPath, предоставляемой JDom. Однако это не очень хорошо работает, потому что большая часть HTML в разделе не является допустимым XML.

Есть ли у кого-нибудь какие-либо предложения о том, как мне разобрать эти значения тегов таким образом, чтобы справиться с искаженным HTML?

Cheers, Дон

Ответы [ 3 ]

6 голосов
/ 18 ноября 2008

Вы можете использовать Jericho HTML Parser . В частности, посмотрите на this , чтобы узнать, как можно найти конкретные теги.

2 голосов
/ 18 ноября 2008

Если это подходит вашему приложению, вы можете использовать Tidy для преобразования HTML в действительный XML, а затем использовать столько XPath, сколько вам нужно!

0 голосов
/ 18 ноября 2008

JTidy должна послужить хорошей отправной точкой для этого.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...