Question

У меня есть коллекция документов HTML, для которых мне нужно проанализировать содержимое тегов в разделе . Это единственные теги HTML, значения которых меня интересуют, т.е. мне не нужно ничего анализировать в разделе .

Я попытался проанализировать эти значения с помощью поддержки XPath, предоставляемой JDom. Однако это не очень хорошо работает, потому что большая часть HTML в разделе не является допустимым XML.

Есть ли у кого-нибудь какие-либо предложения о том, как мне разобрать эти значения тегов таким образом, чтобы справиться с искаженным HTML?

Cheers, Дон

bdumitriu · Answer 1 · 18 ноября 2008

Вы можете использовать Jericho HTML Parser . В частности, посмотрите на this , чтобы узнать, как можно найти конкретные теги.

activout.se · Answer 2 · 18 ноября 2008

Если это подходит вашему приложению, вы можете использовать Tidy для преобразования HTML в действительный XML, а затем использовать столько XPath, сколько вам нужно!

James Van Huis · Answer 3 · 18 ноября 2008

JTidy должна послужить хорошей отправной точкой для этого.

разбирать мета-теги в Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

разбирать мета-теги в Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов