Я не знаю о jsoup, но TagSoup - фантастическая библиотека для разбора HTML. У меня это было в производственной системе в течение нескольких лет, которая работала с десятками тысяч (по крайней мере) веб-страниц в дикой природе, и у нас никогда не было ни одного отказа от TagSoup. Он обрабатывает даже самый ужасно отформатированный HTML, какой только можно представить.