Как можно использовать tr ie в поисковой системе (не для автозаполнения)? - PullRequest
0 голосов
/ 16 февраля 2020

Я сталкивался с этим:

Основная информация, хранящаяся в поисковой системе, - это словарь, называемый инвертированным индексом или инвертированным файлом, в котором хранятся пары ключ-значение (w, L), где w - слово, а L - набор страниц, содержащий слово w. Ключи (слова) в этом словаре называются индексными терминами и должны представлять собой набор словарных статей и имен собственных как можно большего размера. Элементы в этом словаре называются списками вхождений и должны охватывать как можно больше веб-страниц.

Мы можем эффективно реализовать инвертированный индекс со структурой данных, состоящей из следующих элементов:

  1. Массив, хранящий списки экземпляров терминов (в произвольном порядке).
  2. Сжатый tr ie для набора терминов индекса, где каждый лист хранит индекс списка экземпляров связанного термина. Причина хранения списков вхождений за пределами tr ie заключается в том, что размер структуры данных tr ie достаточно мал для размещения во внутренней памяти. Вместо этого из-за их большого общего размера списки вхождений должны храниться на диске.

, и я не понимаю этого. Если для хранения списков происшествий используется словарь, какова цель tr ie? Если мне все равно придется искать слово в словаре, зачем возиться с tr ie?

Редактировать: Цитата из структур данных и алгоритмов в Python Майкл Т. Гудрич, Роберто Тамассия, Майкл Х. Голдвассер

...