Question

Любая идея, какой алгоритм хеширования используется при индексации каждого слова в люцене

jpountz · Answer 1 · 06 сентября 2011

Lucene не использует хеширование для поиска терминов, они хранятся лексикографически в файле терминов словаря. Другой файл, называемый информационным индексом терминов, загружается в память для обеспечения произвольного доступа к словарю терминов (который в основном представляет собой список пропуска).

Больше информации на сайте Lucene .

В настоящее время Term Info Index хранит положение каждого indexdivisor-го (обычно indexdivisor = 128) в памяти, что означает, что вы можете искать термин, выполняя один двоичный поиск по Term Info Index (в памяти), и самое большее 128 записей в словаре терминов (на диске).

http://lucene.472066.n3.nabble.com/Understanding-lucene-indexes-and-disk-I-O-td714698.html

Существует оптимизация, в настоящее время доступная в транке, для этого индекса информации о терминах, которая использует префикс trie для выполнения поиска и работает намного лучше для запросов, интенсивно использующих словарь терминов.

https://issues.apache.org/jira/browse/LUCENE-3030

Алгоритм хеширования, используемый в индексации Lucene

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Алгоритм хеширования, используемый в индексации Lucene

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов