Вы можете использовать TagSoup - это SAX-совместимый синтаксический анализатор, который может чистить искаженный контент, такой как HTML, с общих веб-страниц в правильно сформированный XML.
This is <B>bold, <I>bold italic, </b>italic, </i>normal text
gets correctly rewritten as:
This is <b>bold, <i>bold italic, </i></b><i>italic, </i>normal text.