Я ищу альтернативу C / C ++ для Apache Tika framework, которая основана на Java.В частности, я ищу файловые метаданные и извлечение структурированного текста в рамках одного фреймворка.После некоторого поиска в Интернете и просмотра ближайших вещей, которые у меня есть, это GNU libextractor и набор отдельных файловых фильтров, которые анализируют документы для извлечения текстовых данных (pdftoext, xls2csv ..etc)
Может кто-нибудьпожалуйста, порекомендуйте хорошую библиотеку, сравнимую с Apache's Tika?
Спасибо