У меня есть коллекция документов HTML, для которых мне нужно проанализировать содержимое тегов в разделе . Это единственные теги HTML, значения которых меня интересуют, т.е. мне не нужно ничего анализировать в разделе .
Я попытался проанализировать эти значения с помощью поддержки XPath, предоставляемой JDom. Однако это не очень хорошо работает, потому что большая часть HTML в разделе не является допустимым XML.
Есть ли у кого-нибудь какие-либо предложения о том, как мне разобрать эти значения тегов таким образом, чтобы справиться с искаженным HTML?
Cheers,
Дон