Из-за аббревиатуры (усечения строки) фрагмента html у меня также возникла проблема с незамкнутыми тегами html, которые регулярные выражения не могут обнаружить.
Например:
Lorem ipsum dolor sit amet, <b>consectetur</b> adipiscing elit. <a href="abc"
Итак, ссылаясь на 2 лучших ответа (JSoup и regex), я предпочел решение с использованием JSoup:
Jsoup.parse(html).text()