Мне нужно хранить большой набор того, что, по моему мнению (хотя я привык к SQL), реляционных данных.В основном рассмотрите возможность хранения большого подмножества ClueWeb (4 ТБ).Есть документы, предложения и извлечения - а также свойства каждого.Основной вариант использования - выполнение полнотекстового поиска по извлечениям.
Выполнение полнотекстового поиска по извлечениям легко и эффективно реализуется с помощью Lucene.Однако семантически извлечения являются частями предложений, которые являются частями документов.Предложения и документы также имеют свои собственные атрибуты, но когда я сохраняю свои извлечения в Lucene, предложения и документы должны быть свойствами извлечений.
Существует ли хороший механизм базы данных, который позволяет выполнять полнотекстовый поиск по извлечениям, но такжереляционная структура, чтобы я мог легко хранить свойства предложений и документов?Или есть способ сохранить эти данные в Lucene, который я не понимаю?