Perl Doc / PDF / XLS в HTML конвертер - PullRequest
2 голосов
/ 12 января 2011

Я хотел бы конвертировать файлы с расширениями doc / docx / xls / xlsx / pdf в файлы HTML. Есть ли способ сделать это простым способом на Solaris с использованием Perl?

Ответы [ 3 ]

2 голосов
/ 26 апреля 2011

Библиотек Perl, которые я использовал для обработки файлов Microsoft Office, довольно не хватало, и мне еще предстоит найти библиотеки, которые хорошо справляются с обработкой расширений Office 2007 и Office 2010 (укажите в комментариях одну из них, есливы знаете об одном!)

Если у вас есть компьютер с Microsoft Office, вы можете использовать win32ole для управления приложением Office из unix.Я делал это раньше с Ruby: http://rubyonwindows.blogspot.com/2007/03/automating-excel-with-ruby.html

Вот модуль perl для использования win32 OLE: http://metacpan.org/pod/Win32::OLE

Я лично не рекомендую подход OLE, потому что он имеет многоголовные боли (как будто вы должны оставить Office запущенным на ПК, чтобы сценарий unix работал, брандмауэр Windows почти случайным образом заблокирует сценарий unix, когда ваш компьютер будет обновлен с помощью исправлений).но вот Java-программа, которая будет использовать OpenOffice и GhostScript для выполнения пакетных преобразований за вас: http://www.codeproject.com/KB/java/PDFCM.aspx

1 голос
/ 30 апреля 2011

для Excel в HTML -> вы можете использовать exceltohtml

нужны следующие модули:

use Spreadsheet::ParseExcel;
use File::Find ; use Cwd ; 
1 голос
/ 12 января 2011

В качестве идентификатора есть утилита под названием xpdf, которая преобразует файлы pdf в текст . Это было скомпилировано в Solaris, хотя вам придется компилировать из исходного кода (вы можете вызвать утилиту из командной строки). Я использовал это, и это здорово.

Что еще более важно , есть модифицированная версия, которая преобразует pdf в html . Это я не проверял, но стоит попробовать.

...