Мне просто интересно, сможем ли мы достичь некоторых возможностей РСУБД в lucene.
Пример:
1) У меня есть 10 000 проектных документов (PDF-файлы), которые должны быть проиндексированы вместе с их содержанием, чтобы сделать их доступными для поиска.
2) Каждый документ относится к ОДНОМУ ПРОЕКТУ. Проект может содержать такие данные, как имя проекта, номер, дата начала, дата окончания, местоположение, тип и т. Д.
Мне нужно выполнить поиск по содержимому файлов pdf по заданному ключевому слову, но при отображении результатов я хочу отобразить метаданные проекта, как указано в пункте (2).
Моя идея заключается в том, чтобы связать поле с именем projectId с каждым файлом PDF при индексации. Как только мы получим это, мы снова запустим поиск метаданных проекта.
Таким образом, мы могли бы избежать дублирования данных. Кроме того, если мы хотим обновить метаданные проекта, мы закончим обновление только в ОДНОМ МЕСТЕ. В противном случае, если мы сохраним эти метаданные со всеми индексами pdf, мы закончим обновление всех документов, что не так, как я ищу.
пожалуйста, сообщите.