Преобразование между docx / doc / rtf и облегченной разметкой - PullRequest
5 голосов
/ 28 сентября 2010

Я ищу инструмент или набор инструментов для преобразования между форматами файлов D и M, где

  • D - это формат, обрабатываемый MSWord, в порядке предпочтения, docx, doc, rtf
  • M - легкая разметка, такая как markdown, textile, txt2tags, может быть эзотерической
  • есть способ создать HTML из M
  • преобразование двустороннее, оно выполняется как из D в M, так и из M в D
  • Кодировка utf-8 обрабатывается правильно
  • содержание простое, абзацы, простое форматирование, например жирный и курсив, возможно списки
  • инструменты не зависят от платформы

Что я нашел до сих пор

  • TeX, LaTeX - слишком тяжелый вес
  • docx2txt - слишком легкий, вообще не поддерживает форматирование
  • html - MSWord создает раздутый html
  • несколько односторонних преобразований, например doc в mediawiki ,

UPDATE:

Вариант использования - это документооборот между техническими и нетехническими людьми

  • Я, технический специалист, редактирую документ в виде простого текста, помещаю его в систему контроля версий и т. Д.
  • Я отправляю его своему менеджеру или другим нетехническим людям
  • Они добавляют комментарии, вносят в него изменения с помощью своего Word, а затем отправляют его мне
  • Я хочу просто вносить изменения, вносить изменения, переводить их в систему управления версиями без использования Word

Ответы [ 4 ]

0 голосов
/ 26 мая 2016

Я думаю, что Pandoc гораздо больше, чем отвечают всем требованиям.

http://pandoc.org

0 голосов
/ 30 сентября 2010

Вероятно, это трудно сделать в двух направлениях, поскольку у вас будут несовпадения импеданса между различными форматами.

Лучший мир, о котором я могу подумать, - это своего рода гибрид Wiki / Word. Может, вы можете заставить Google Wave сделать это для вас?

Еще одно решение, которое может работать, - это CMS, подобная Plone (они когда-либо добавляли возможность WYSIWIG? Я перестал заботиться о версии 1). Храните там свои документы. Разрешить системе обрабатывать изменения, аннотации и т. Д. Вы можете автоматизировать извлечение источника (должно быть ReStructuredText) и зафиксировать его в своем контроле исходного кода, если потребуется.

0 голосов
/ 16 ноября 2012

Этот сценарий, который я написал, может помочь вам в вашем рабочем процессе:

https://github.com/matb33/docx2md

Это PHP-скрипт командной строки, который будет работать только с .docx файлами.Он извлечет XML, запустит некоторые XSL-преобразования и предоставит вам результат в формате Markdown.

Я призываю вас прислать мне .docx файлов, которые не конвертируются точно.Я бы хотел сделать этот скрипт максимально надежным и надежным.

0 голосов
/ 29 сентября 2010

Адам, я использовал docx4j для преобразования docx в html, отредактировал html в CKEditor, а затем с помощью docx4j преобразовал html обратно в docx. Мой процесс сделал некоторые предположения о css (т.е. он был разработан для обработки чистого HTML-кода docx4j и редактирования в CKEditor).

Вы не говорите, есть ли способ генерировать M из HTML?

...