Я сталкивался с этим:
Основная информация, хранящаяся в поисковой системе, - это словарь, называемый инвертированным индексом или инвертированным файлом, в котором хранятся пары ключ-значение (w, L), где w - слово, а L - набор страниц, содержащий слово w. Ключи (слова) в этом словаре называются индексными терминами и должны представлять собой набор словарных статей и имен собственных как можно большего размера. Элементы в этом словаре называются списками вхождений и должны охватывать как можно больше веб-страниц.
Мы можем эффективно реализовать инвертированный индекс со структурой данных, состоящей из следующих элементов:
- Массив, хранящий списки экземпляров терминов (в произвольном порядке).
- Сжатый tr ie для набора терминов индекса, где каждый лист хранит индекс списка экземпляров связанного термина. Причина хранения списков вхождений за пределами tr ie заключается в том, что размер структуры данных tr ie достаточно мал для размещения во внутренней памяти. Вместо этого из-за их большого общего размера списки вхождений должны храниться на диске.
, и я не понимаю этого. Если для хранения списков происшествий используется словарь, какова цель tr ie? Если мне все равно придется искать слово в словаре, зачем возиться с tr ie?
Редактировать: Цитата из структур данных и алгоритмов в Python Майкл Т. Гудрич, Роберто Тамассия, Майкл Х. Голдвассер