Вариант использования: анализ текста между большим набором общедоступных документов и меньшим набором проприетарных корпоративных документов с использованием Neo4j
Большой набор документов постоянно меняется (например, 200 тыс. Документов плюс 100 новых документов в неделю),В идеале большой кластер должен был бы обрабатывать большой общедоступный набор данных и обновлять общий график.
Пользователи могут отправлять каталог файлов (например, 100 документов, изменяющихся по 10 в неделю).Пользовательские документы являются собственностью, поэтому файлы должны быть изолированы друг от друга.Документы создаются с использованием того же алгоритма, что и публичные документы.
Учитывая все это, я хотел бы иметь общий граф БД для большого набора, и у каждого пользователя есть отдельный граф БД для их документов.Чтобы проанализировать отношения между публичным и пользователем, должны существовать отношения между публичным и частным узлами графа.Публичный граф / db можно обновлять, не затрагивая отношения с частным графом.
Один из подходов может состоять в том, чтобы начать с копии общего графа и добавить граф пользователя, но публичный граф будет иметь много копий, делаяподдержание головной боли.Кроме грубой силы, есть ли какие-либо особенности Neo4j (или другого графа db), которые бы непосредственно поддерживали этот вариант использования?