Как использовать следующие технологии ECM - сравнение - PullRequest
2 голосов
/ 28 февраля 2011

У меня есть теоретический вопрос.У меня есть тонны документов различных форматов (ODS, MS office, pdf, html), и я хотел бы внедрить систему ECM, которая является не системой управления документами, а системой, которая сохраняет метаданные и данные документов (на разных языках)в единой форме (xhtml) в файловую систему и базу данных (только метаданные), что обеспечивает обработку данных (индексацию, поиск).

Какие технологии вы бы использовали и как бы вы поступили?Вот мои варианты:

Использование только Apache Tika - синтаксический анализ этих документов и извлечение метаданных и данных в формат xhtml, а затем использование Lucene или Solr для индексации и полнотекста (большой недостаток - постоянство базы данных - метаданные сильно различаются)1005 *

Использование только Apache Solr с Tika парсерами - у меня нет опыта с этим.Есть ли у него поддержка для интеграции с базой данных, как Apache Nutch?

Затем есть проект Apache UIMA - очень трудно понять, что происходит под капотом

Использование некоторой CMS, которая уже используетApache Tika (под открытым небом, apache jackrabbit) - но у меня нет большого опыта с ними.В любом случае, я уверен, что они уже позаботились о таких проблемах, как (doc или docx или другие типы метаданных), о которых сам Apache Tika не позаботится.

Я также мог бы использовать собственную базу данных XML, такую ​​как eXistПосле того, как я получу формат xhtml от Apache Tika, я не уверен, что это хороший выбор, потому что структура этого документа довольно плоская.База данных XML предназначена для большей иерархичности документов.

1 Ответ

0 голосов
/ 05 мая 2011

Если вам нужно готовое решение, вы можете рассмотреть возможность использования интегрированной среды, такой как Camel, и установить верблюжий маршрут для извлечения сущностей из файлов (используя tika) и перенести их в вашу базу данных через jdbc. В противном случае это звучит как типичная задача добычи данных, начинающаяся с необработанных исходных данных и заканчивающаяся извлеченными сущностями.

...