Я встроил HTML Tidy в свое приложение для очистки входящего HTML. Но у Tidy есть огромное количество ошибок, и их исправление прямо в источнике - мой худший кошмар. Чистый исходный код - нечитаемая мерзость . Тысяча + строковых функций, плохое именование переменных, код спагетти и т. Д. Это действительно ужасно.
Что еще хуже, официальная разработка , кажется, прекратилась . За последние 12 месяцев в официальном репозитории CVS было совершено три операций записи. Но он был мертв и похоронен гораздо дольше ...
Итак, я ищу приложение / библиотеку OSS C или C ++, которая может делать то, что может Tidy (когда это так): исправлять неправильную разметку HTML и преобразовывать ее в действительный XHTML (это та часть, которая мне интересна в). И я имею в виду все виды плохой разметки.
Есть ли что-то подобное там?
РЕДАКТИРОВАТЬ: мне это нужно как для манипуляций с деревом DOM с помощью инструмента обработки XML, так и для общего соответствия спецификации XHTML. Мое приложение должно принимать HTML от пользователей (который часто недопустим во всех отношениях) и выводить действительный XHTML. Он должен уметь обрабатывать даже HTML-код, который обычно не отображается в браузере, поскольку пользователь редактировал его вручную и впоследствии не проверял.
Вставная замена исправляющего синтаксический анализатор Тиди ... это не отстой. Я не возражаю против ошибок, если источник читабелен, и я могу самостоятельно решить проблемы, или если есть активные разработчики, которые своевременно предоставляют исправления ошибок.