Преобразование doc, docx, pdf в HTML с использованием PHP Linux - PullRequest
9 голосов
/ 14 мая 2011

Я запускаю сайт поиска работы, и мне нужно конвертировать doc, docx и pdf файлы в HTML на Linux-сервере CentOS под управлением php.Люди представляют эти файлы как резюме.До сих пор я обнаружил, что PHPDocx отлично подходит для преобразования docx в html.Но я застрял в doc / pdf.PDFTOHTML выдает ошибку «плохой цвет», когда я запускаю тесты.Что касается doc, я обнаружил только wvwave, который кажется сложным и громоздким в установке.

У кого-нибудь есть идеи, как легко конвертировать doc / pdf в HTML?

Ответы [ 4 ]

4 голосов
/ 20 августа 2013

Единственное, о чем я могу думать, это FPDF. Он предназначен для создания PDF-файлов в PHP, но он также может открывать PDF-файлы. Может быть, вы можете использовать это в качестве основы и разработать для него какую-то функцию toHTML.

Он полностью бесплатен и уже имеет некоторые расширения. Это МОЖЕТ вам помочь.

http://www.fpdf.org

EDIT: Спасибо за добавление к моему посту в комментариях к Пьеру:

Вы можете использовать fpdi: http://www.setasign.de/products/pdf-php-solutions/fpdi, но входной pdf похож на изображение.

Я сам пока не смотрел на это, но это может помочь.

3 голосов
/ 22 августа 2013

Что касается файлов .doc, то как насчет попытки OpenOffice / LibreOffice, что-то вроде:
lowriter -convert-to html doc_file.doc –
Что касается PDF, то если PDF является графическим представлением текста, то вам не повезло, лучше всего попытаться преобразовать его в изображение с помощью ImageMagick, если это правильный текст, его легко конвертировать.

2 голосов
/ 26 августа 2013

Существуют различные инструменты для этого, например, http://dag.wieers.com/home-made/unoconv/, http://www.phpdocx.com/ (которые вы уже пробовали)

http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/ выглядит многообещающе.

Или, вы можете установить переносную версию libreoffice на свой сервер, которая позволяет преобразование командной строки https://help.libreoffice.org/Common/Starting_the_Software_With_Parameters

Я уверен, что там будут учебники (в области поддержки libreoffice)

1 голос
/ 25 августа 2013

Чтобы легко конвертировать pdf в html, я бы предложил pdf2htmlEX , который производит выдающийся HTML и достаточно быстр для конвертации во время выполнения. Сначала вы должны приложить некоторые усилия, чтобы оптимизировать и построить его для вашей системы. В ссылку на проект включена простая инструкция по сборке.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...