Как преобразовать файлы pdf, ppt, xl, doc в файлы txt / html ... какие-либо инструменты / коды с открытым исходным кодом в php / python / perl? - PullRequest
2 голосов
/ 14 апреля 2010

Моя конечная цель - индексировать документы, используя lucene. Поскольку lucene не поддерживает индексацию других форматов. Я хочу преобразовать эти файлы в txt / html (индексируемые типы файлов lucene). У меня есть набор документов почти 1000 файлов ppt, pdf, doc, xl и т. Д. Пожалуйста, помогите мне

1 Ответ

1 голос
/ 19 января 2012

Вы можете использовать OpenOffice без преобразователя для преобразования файлов из одного формата в другой, например, Excel / Doc в TXT / HTML.

Мы используем аналогичный процесс в сочетании с ImageMagick, чтобы позволить людям загружать офисные документы в приложение для презентации.

Ниже приведены несколько примеров / учебных пособий о том, как этого добиться:

Настройка OpenOffice

http://code.google.com/p/openmeetings/wiki/OpenOfficeConverter

JOD Converter (Java)

http://artofsolving.com/opensource/jodconverter

PyOD Converter (Python)

http://artofsolving.com/opensource/pyodconverter

Если вам нужна дополнительная помощь с OOo, не стесняйтесь спрашивать

Удачи:)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...