У меня есть теоретический вопрос.У меня есть тонны документов различных форматов (ODS, MS office, pdf, html), и я хотел бы внедрить систему ECM, которая является не системой управления документами, а системой, которая сохраняет метаданные и данные документов (на разных языках)в единой форме (xhtml) в файловую систему и базу данных (только метаданные), что обеспечивает обработку данных (индексацию, поиск).
Какие технологии вы бы использовали и как бы вы поступили?Вот мои варианты:
Использование только Apache Tika - синтаксический анализ этих документов и извлечение метаданных и данных в формат xhtml, а затем использование Lucene или Solr для индексации и полнотекста (большой недостаток - постоянство базы данных - метаданные сильно различаются)1005 *
Использование только Apache Solr с Tika парсерами - у меня нет опыта с этим.Есть ли у него поддержка для интеграции с базой данных, как Apache Nutch?
Затем есть проект Apache UIMA - очень трудно понять, что происходит под капотом
Использование некоторой CMS, которая уже используетApache Tika (под открытым небом, apache jackrabbit) - но у меня нет большого опыта с ними.В любом случае, я уверен, что они уже позаботились о таких проблемах, как (doc или docx или другие типы метаданных), о которых сам Apache Tika не позаботится.
Я также мог бы использовать собственную базу данных XML, такую как eXistПосле того, как я получу формат xhtml от Apache Tika, я не уверен, что это хороший выбор, потому что структура этого документа довольно плоская.База данных XML предназначена для большей иерархичности документов.