Как конвертировать документы из .doc в текст - PullRequest
1 голос
/ 11 октября 2011

Я долго размышлял над написанием этого вопроса.

Я работаю в небольшой новостной корпорации во Вьетнаме.

Сервер, на котором я работаю для документов, является последней версией Ubuntu (очевидно, с PHP / Apache), что означает, что, насколько я знаю, форматы, такие как .doc и .docx, не будут открываться изначально. .

Однако, когда репортеры загружают документы, половину времени они делают в каком-то формате Microsoft. Это означает, что моя машина Linux не может открывать и выбирать ключевые слова, что меня очень расстраивает; это потому что такие вещи как pdf2txt.py не работают.

Способ обойти эту проблему, не доставляя слишком много неудобств репортерам? Я понимаю, что, поскольку я работаю на сервере Linux, мне, возможно, придется запускать какое-то стороннее приложение, чтобы выполнить эту работу за меня, которое может работать в краткосрочной перспективе, но это может представлять определенные риски для безопасности.

Резюме : Как я могу заставить сервер Linux автоматически конвертировать любой формат, такой как .doc и .docx, в PDF для дальнейшей манипуляции?

1 Ответ

1 голос
/ 11 октября 2011

Для файлов документов oldschool, посмотрите на catdoc и wv.

Для универсального решения, которое может конвертировать все, что OpenOffice может открыть, во все, что OpenOffice может сохранить, это unoconv .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...