У нас была та же проблема с необходимостью конвертировать документы Word в уценку. Некоторые были более сложными и (очень) большими документами с математическими уравнениями и изображениями и тому подобным. Поэтому я сделал этот скрипт, который конвертирует с использованием ряда различных инструментов: https://github.com/Versal/word2markdown
Поскольку он использует цепочку из нескольких инструментов, он более подвержен ошибкам, но может быть хорошей отправной точкой, если у вас есть более сложные документы. Надеюсь, что это может быть полезно! :)
Обновление:
В настоящее время он работает только на Mac OS X, и вам необходимо установить некоторые требования (Word, Pandoc, HTML Tidy, git, node / npm). Чтобы он работал правильно, вам также нужно открыть пустой документ Word и выполнить: Файл-> Сохранить как веб-страницу-> Совместимость-> Кодировка-> UTF-8. Затем эта кодировка сохраняется по умолчанию. См. README для более подробной информации о том, как настроить.
Затем запустите это в консоли:
$ git clone git@github.com:Versal/word2markdown.git
$ cd word2markdown
$ npm install
(copy over the Word files, for example, "document.docx")
$ ./doc-to-md.sh document.docx document_files > document.md
Тогда вы сможете найти уценку в document.md
и изображения в каталоге document_files
.
Возможно, сейчас это немного сложно, поэтому я приветствовал бы любой вклад, который облегчит это или сделает эту работу на других операционных системах! :)