Если HTML-код, который вы используете, совместим с XHTML, вы можете загрузить его как документ XML, а затем использовать XPath / XSL - многословно, но довольно элегантно?
Подход, который я использовал в прошлом, заключается в том, чтобы использовать HTMLTidy для преобразования грязного HTML в XHTML, а затем использовать XSL / XPath для очистки содержимого экрана в базе данных, чтобы создать обратную систему управления содержимым.
Регулярные выражения будут делать это, но могут оказаться сложными, если вы попытаетесь удалить теги, имена изображений и т. Д., Чтобы удалить ложные срабатывания.