Я долго размышлял над написанием этого вопроса.
Я работаю в небольшой новостной корпорации во Вьетнаме.
Сервер, на котором я работаю для документов, является последней версией Ubuntu (очевидно, с PHP / Apache), что означает, что, насколько я знаю, форматы, такие как .doc и .docx, не будут открываться изначально. .
Однако, когда репортеры загружают документы, половину времени они делают в каком-то формате Microsoft. Это означает, что моя машина Linux не может открывать и выбирать ключевые слова, что меня очень расстраивает; это потому что такие вещи как pdf2txt.py
не работают.
Способ обойти эту проблему, не доставляя слишком много неудобств репортерам? Я понимаю, что, поскольку я работаю на сервере Linux, мне, возможно, придется запускать какое-то стороннее приложение, чтобы выполнить эту работу за меня, которое может работать в краткосрочной перспективе, но это может представлять определенные риски для безопасности.
Резюме : Как я могу заставить сервер Linux автоматически конвертировать любой формат, такой как .doc и .docx, в PDF для дальнейшей манипуляции?