Конвертировать документ в TXT через командную строку - PullRequest
11 голосов
/ 28 июня 2011

Мы ищем программу, которая позволяет нам конвертировать документ doc или docx в текстовый файл.Мы работаем с Linux и хотим запустить веб-сайт, который конвертирует загруженные пользователем файлы документов.Мы не хотим использовать open office / libre office, потому что у нас с этим плохой опыт.Pandoc не может обрабатывать файлы документов: /

У кого-нибудь есть идеи?

Ответы [ 2 ]

9 голосов
/ 12 ноября 2016

Вам придется использовать два разных инструмента командной строки, в зависимости от того, работаете ли вы с форматом .doc или .docx.

Для .doc используйте catdoc:

catdoc foo.doc > foo.txt

Для.docx use docx2txt:

docx2txt foo.docx

Последний создаст файл с именем foo.txt в том же каталоге, что и оригинал.

Я не уверен, какой дистрибутив Linux вы используете,но и catdoc, и docx2txt доступны из репозиториев Ubuntu, например:

apt-get install docx2txt

Или с Homebrew на Mac:

brew install docx2txt
1 голос
/ 28 июня 2011

Вот проект Perl , который утверждает, что делает это.Я также многое сделал вручную, используя XSLT для document.xml.сам файл Docx - это просто zip-файл, вы можете разархивировать его и проверить элементы.Я скажу, что это не сложно сделать для конкретных файлов, но очень сложно сделать в общем случае из-за отсутствия документации о том, как Word хранит вещи внутри, и дисперсии внутреннего представления.

...