В своем коде я конвертирую некоторые стилизованные документы в формате xls в html, используя openoffice.
Затем я анализирую таблицы, используя xml_parser_create
.
Проблема в том, что openoffice создает oldschool html с незамкнутыми тегами <BR>
и <HR>
, не создает типы документов и не заключает в кавычки атрибуты <TABLE WIDTH=4>
.
Парсерам php, которые я знаю, это не нравится, и они приводят к ошибкам форматирования xml. Мое текущее решение состоит в том, чтобы запустить несколько регулярных выражений над файлом, прежде чем я его проанализирую, но это ни приятно, ни быстро.
Знаете ли вы (надеюсь, что он включен) php-парсер, который не заботится о подобных ошибках? Или, возможно, быстрый способ исправить «сломанный» HTML?