Соответствующая база данных для исследования литературы - PullRequest
0 голосов
/ 11 марта 2020

Я работаю над исследовательской системой, которая используется для поиска документов из большой библиотеки (~ 10 миллионов) текстов. Их текущий исходный формат XML. Это исследование выполняется путем поиска ключевых слов в основном тексте / заголовке / аннотации, а также сужения области действия путем фильтрации с помощью метаинформации. Каждый из документов содержит информацию о таких вещах, как дата публикации, автор, серийный номер, тема / жанр, страна происхождения. Типичный пользователь может включить несколько из этих критериев поиска, чтобы сузить свои исследования до небольшого подмножества (несколько сотен обращений), комбинируя поисковые термины с такими операторами, как AND, OR, NOT или сопровождаемых.

Насколько я вижу, следующие системные критерии вытекают из этого:

  • сборка для обработки больших нагрузок при чтении
  • сравнительно небольшое количество записей (время от времени добавляются новые документы, поскольку библиотека постоянно растет. Очень мало правок существующих документов. Ничего из этого не сделано пользователями, а только администраторами)
  • с поддержкой полнотекстового поиска (с учетом lucene ,asticsearch, solr здесь)
  • обработка использования из нескольких полей индекса и сложных, разнообразных поисковых запросов. Эти запросы не определены заранее.
  • быстрое время отклика, поскольку пользователи могут выполнять итерацию по нескольким поисковым запросам до того, как они определились со списком результатов.

Я сделал некоторые основы c исследование баз данных для ознакомления с областью и терминологией. Я получил предложение проверить Cassandra, так как она считается очень быстрой системой баз данных и более подробно рассмотрела, как она работает и как в нее может быть включен полнотекстовый индекс. Но, в конце концов, это не совсем подходит. (не стесняйтесь поправлять меня, если вы считаете, что я ошибаюсь в этом.)

База данных обширна и разнообразна. Соблазнительно выбрать одно из популярных громких имен, которые вы часто упоминаете, но это не значит, что они подходят. Так что я надеюсь, что есть предложения по конкретным c системам баз данных, на которые я мог бы взглянуть далее, которые бы соответствовали описанию выше. :)

...