Задавайте вопросы об онтологии и графике - PullRequest
1 голос
/ 09 марта 2020

Я просто использую Graphdb EE для оценки.

Я намерен перенести мои большие данные из Cassandra в Graphdb, но я прочитал документы, которые могут содержать 2 ^ 40 сущностей = 2000B сущностей. У меня есть несколько вопросов по этому поводу:

  1. Можно ли распространить информацию на неограниченное количество лиц?

  2. Я хочу использовать множество репозиториев для управления своими данными и способ подключения их для использования в качестве одного репо?

  3. Есть ли способ поиска по нескольким объектам и по нескольким свойствам (уже внесенным в указатель на Flexiblesearch) / объекту?

  4. Нужно ли создавать каждый соединитель ES со всеми свойствами / объектами для достижения максимальной производительности?

1 Ответ

1 голос
/ 09 марта 2020

Дэвид, пожалуйста, смотрите ниже быстрые ответы.

  1. Есть ли способ распространения на неограниченное количество лиц?

2 ^ 40 означает 1T сущностей. Вам действительно нужно нечто большее?

Сущности в GraphDB - это узлы графа: URI, литералы, пустые списки. В среднем у вас будет несколько ребер / операторов на узел (скажем, 5x).

Я хочу использовать множество репозиториев для управления моими данными и способы их подключения для использования в качестве единого репо?

Да, пожалуйста, смотрите так называемую внутреннюю федерацию , что позволяет эффективно выполнять объединение в запросе SPARQL по репозиториям в одном и том же экземпляре GraphDB.

Есть ли способ поиска по нескольким объектам и по нескольким свойствам (уже проиндексированным на эластичный поиск) / объекту?

Я не уверен, что понимаю ваши вопросы. Вы можете определенно встроить несколько запросов FTS в один запрос SPARQL. Эти запросы FTS могут искать разные объекты, используя разные поля. Вы можете прочитать больше об этом здесь .

Нужно ли создавать каждый соединитель ES со всеми свойствами / объектами для достижения максимальной производительности?

Вы можете иметь несколько индексов для одного и того же репо. Лучший способ повысить производительность - это задать указанные c индексы (для указанных c свойств / полей с указанными c фильтрами) для тех запросов, которые наиболее важны для вас.

...