Вы забыли точку с запятой:)
Нет, серьезно, используйте (X) API синтаксического анализа / очистки HTML, который может конвертировать tagoup (HTML) в XHTML. Под каждым JTidy можно сделать это за один звонок:
new Tidy().parseDOM(inputStream, outputStream);
Regex просто не очень подходит для этой работы.