OpenOffice имеет возможность преобразовывать Word Dox в X / HTML / XML / другие форматы.
Некоторое время назад я написал PHP-скрипт, который брал полученный XHTML-вывод из больших документов Word и затем выполнял XSL-преобразования - включая HTMLTidy - и перекачивал их в пользовательские шаблоны XHTML.
Результат, на удивление, был очень хорошим - с одной оговоркой. В зависимости от степени редактирования ваших документов Word - esp. с Track Change - вы можете обнаружить, что случайные символы выпадают полностью, и вы часто получаете дополнительный интервал.
В моем случае вывод был законным по своему характеру, поэтому я попросил нашу команду редактирования проанализировать вывод и дать мне честное мнение, и, честно говоря, они не чувствовали себя хорошо по отношению к отсутствующим символам, но я проверял орфографию на основе браузера взял бы большую часть этого.
Итак, мое решение для вас - использовать Open Office для преобразования в XHTML (я думаю, мне пришлось изменить макрос преобразования - там была очень простая опечатка, которая заставляла его задыхаться из памяти - возможно, это было исправлено ). А потом, пожалуйста, по-своему.
Проверьте мой профиль и напишите мне, если вам нужен сценарий, который я написал, и я отправлю вам исходный код завтра, если хотите, (хак, но он работает!).
РЕДАКТИРОВАТЬ: Испытывались многие другие решения, я забыл детали, за исключением того, что все они отстой гораздо больше, чем Open Office.