Слишком много документов: индекс не может превышать 2147483519, но у читателей общее значение maxDoc = 2147483531 - PullRequest
0 голосов
/ 13 февраля 2019

В поисках лучшего решения, чтобы избежать жесткого ограничения lucene на общее количество документов.Есть ли способ увеличить лимит.

Мы запускаем DSE Search на одном из центров обработки данных, и мы приближаемся к жесткому ограничению количества документов в lucene.

Возможные решения:
1) Добавить новый узел, чтобы данные перераспределялись с новыми токенами, и поиск мог работать.В нашем случае это невозможно в настоящий момент.
2) Снять один из узлов и перестроить узел на увеличить num_token, чтобы он мог размещать документы lucene в большем количестве разделов (** Это мое предположение) * +1010 *.

К вашему сведению: Я знаю, что DSE предпочитает использовать один токен для поиска, но моя организация использует систему виртуальных токенов.

Ниже приведен фактический журнал из файла системного журнала..

 Caused by: org.apache.lucene.index.CorruptIndexException: Too many documents: an index cannot exceed 2147483519 but readers have total maxDoc=2147483531 (resource=BufferedChecksumIndexInput(MMapIndexInput(path="/data/cassandra/data/solr.data/keyspace.table_name/index/segments_2lj")))

Любые предложения приветствуются.

1 Ответ

0 голосов
/ 14 февраля 2019

Вы ограничены Lucene, который не может иметь более 2B документов в одном индексе.Вы можете уменьшить количество документов на:

  1. Добавление новых узлов в кластер (как вы уже упоминали);
  2. Не индексируйте UDT, которые проиндексированы как отдельные документы
...