Можно ли извлечь мета-информацию из офисных файлов MS и / или PDF-файлов с помощью PHP? - PullRequest
5 голосов
/ 19 января 2010

Итак, у меня есть файлы ....

.doc
.docx
.xls
.xlsx
and .pdf

, которые находятся на моем сервере.

Можно ли (и если да, то как) извлечь метаданные из этих файлов с помощью PHP? Я ищу такие вещи, как автор, ключевые слова, заголовок и т. Д. *

В офисных документах это информация, хранящаяся вместе со свойствами документа (Файл ... Свойства ... Сводка за 2003 г., Подготовка ... Свойства за 2007 г.).

В PDF-файлах эта информация находится в Свойствах документа.

Это , а не на сервере Windows.

1 Ответ

2 голосов
/ 19 января 2010

Мне удалось извлечь много мета-информации, используя XPDF в системе linux несколько лет назад. Однако в настоящее время я бы сказал, Zend_PDF - ваша лучшая ставка. Сам не использовал, но выглядит хорошо и обещает все, что вам нужно. Кажется, что также не имеет библиотечных зависимостей.

Для Word .DOCs, если вы не нашли лучшего способа, подключитесь к экземпляру / командной строке сервера OpenOffice и преобразуйте файлы в ODT, который является XML и может быть проанализирован. Если невозможно извлечь метаданные по макросам - так и должно быть, но я не знаю, сколько это стоит. Эта запись на форуме OpenOffice дает массу отправных точек для автоматического преобразования.

Форматы ... X - это своего рода XML, поэтому из них можно легко получить метаданные. В качестве альтернативы вы также можете использовать здесь фильтры преобразования OpenOffice, если они переносят метаданные.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...