C / C ++ альтернатива Apache Tika - PullRequest
7 голосов
/ 04 июня 2011

Я ищу альтернативу C / C ++ для Apache Tika framework, которая основана на Java.В частности, я ищу файловые метаданные и извлечение структурированного текста в рамках одного фреймворка.После некоторого поиска в Интернете и просмотра ближайших вещей, которые у меня есть, это GNU libextractor и набор отдельных файловых фильтров, которые анализируют документы для извлечения текстовых данных (pdftoext, xls2csv ..etc)

Может кто-нибудьпожалуйста, порекомендуйте хорошую библиотеку, сравнимую с Apache's Tika?

Спасибо

Ответы [ 2 ]

3 голосов
/ 04 июня 2011

Tika имеет режим сетевого сервера, так что вы всегда можете запустить Tika, используя его, а затем отправлять запросы из своего кода C ++?

Альтернативно, у Tika есть режим CLI, так что вы можете запустить новый Tikaобрабатывать каждый раз и читать данные из канала.

1 голос
/ 27 апреля 2015

KDE предоставляет библиотеку с именем KFileMetaData , которую они внутренне используют для индексатора файлов.

Он использует C ++, Qt5 и поддерживает большинство основных форматов, таких как- ms-office-2007, odfs, pdfs, изображения, видео, аудио и электронные книги.

...