Основанный на Python анализатор метаданных документа? - PullRequest
3 голосов
/ 10 февраля 2010

Кто-нибудь знает хороший анализатор для метаданных документа в python для Unix-подобных систем. В Java apache tika отлично.

Нет ком ... пожалуйста:)

Спасибо

Ответы [ 4 ]

3 голосов
/ 08 августа 2010

Вам не нужно использовать Jython, чтобы использовать Tika. Вы можете вызывать Java из Python, используя JCC . Вы можете найти приличные инструкции для этого здесь .

При установке JCC вам придется использовать один из двух предоставленных патчей для setuptools, чтобы он мог создавать общие объекты. Версия с7 у меня работала на Ubuntu 10.04.

Другой вариант - использовать модуль подпроцесса python для вызова и захвата стандартного вывода Tika.

1 голос
/ 01 февраля 2012

Тика кажется отличным вариантом. Это единственный инструмент, который я нашел (кроме OpenOffice в режиме сервера), который поддерживает файлы XLS старого стиля. Я проделал некоторую работу по упрощению интеграции Tika в проект Python, который вы можете найти в этом посте .

1 голос
/ 10 февраля 2010

Если вам нравится tika, вы всегда можете использовать Jython , чтобы вы могли ссылаться на tika напрямую.

0 голосов
/ 20 февраля 2010

hachoir_metadata прекрасно работает с документами Excel http://bitbucket.org/haypo/hachoir/wiki/Home

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...