Я хотел бы преобразовать документы doc / docx в семантический HTML.
Некоторые пожелания / требования:
Семантический HTML такой, что заголовки в документе
, и т. Д., Таблицы и т. Д.
Желательно иметь возможность обрабатывать заголовки, списки, таблицы и изображения. Графики и математические формулы - приятное дополнение.
• Не нужно конвертировать прямо из doc / docx в html, можно использовать промежуточный формат, такой как xml или docbook.
• Должен работать программно и с большим количеством документов.
Самым близким к решению, которое я нашел, является http://holloway.co.nz/docvert/index.html,, но, к сожалению, есть много ошибок, небольшая база пользователей, и она не может обрабатывать много документов. Больше доказательства концепции.