Конвертировать слово (.docx) в docbook - PullRequest
8 голосов
/ 13 июня 2011

Мне было поручено найти способ конвертировать большое количество файлов .docx в docbook 5. В настоящее время мы открываем файл в openoffice и сохраняем в docbook. Это трудоемкая задача, но я уверен, что есть лучший путь. Эти файлы затем будут обработаны в нашей собственной схеме NG Relax. Поэтому это преобразование не должно быть безупречным. Я осмотрелся и продолжу исследовать некоторые выводы, но не нашел ничего полезного.

глядя на Конвертировать doc / docx в семантический HTML они предложили upCast , но это не соответствует моим потребностям.

Я ищу что-то свободно доступное, что я могу использовать из командной строки. В конечном итоге я хотел бы обработать наши файлы в пакетном режиме. Я включил теги linux, python и java для этих сред, которые мне наиболее удобны, но я бы хотел найти правильное решение. Я пытаюсь провести какое-то исследование, прежде чем выйти и заново изобрести колесо.

Ответы [ 3 ]

7 голосов
/ 13 июня 2011

Существует несколько способов написания этого сценария, как с использованием внешних сценариев, так и сценариев в OpenOffice. Смотрите следующие ссылки для некоторых примеров:

Некоторые из приведенных выше ссылок не используют Java или Python, но принципы все еще применяются, и сценарии, как правило, достаточно короткие, чтобы их можно было портировать (первый пример на Ruby, но это мой личный фаворит из-за простоты). ).

5 голосов
/ 25 августа 2016

В случае риска получить значок археолога из SX, ответы должны включать ссылку на Pandoc . Это не зависит от открытого офиса.

pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx

3 голосов
/ 13 июня 2011

Вы можете запустить openoffice в режиме сервера и передавать документы без необходимости открывать каждый из них вручную.

В одну сторону: http://code.google.com/p/bungeni-editor/wiki/RunningTheJODConverterServer

...